Меню
Главная
Авторизация/Регистрация
 
Главная arrow Литература arrow Исследование вклада синтаксических признаков в распознавание анафоричесних отношений

Анализ существующих систем

Алгоритм распознавания анафорических связей начинается с того, что в контексте, предшествующем анафору, выделяются именные группы. Длина контекста во многих системах определяется предложением, в котором было найдено местоимение, и предложением до него. Но антецедент может быть и на гораздо большем расстоянии (Mitkov 1999). Определение анафорических связей осуществляется с помощью набора "анафорических признаков". К ним относятся такие признаки, как согласование по роду и числу, ограничения связывания (c-command), семантические ограничения, синтаксический/семантический параллелизм, выделенность/значимость (salience) и другие.

В работе (Mitkov 1999: 4) выделены основные ограничения на анафорическую связь:

  • · Согласование в роде и числе
  • · Ограничения в синтаксическом управлении
  • o Именная группа не может быть связана кореферентной связью с именной группой, которой она управляет
  • (3а) He told them about John.

`Он рассказал им о Джоне' [пример из (Mitkov 1999: 4)]

  • o Антецедент рефлексива (reflexive pronoun) должен быть в одной клаузе с местоимением
  • (3б) John likes pictures of himself.

`Джону нравится картина с ним. ' [пример из (Mitkov 1999: 4)]

  • o Личные местоимения не могут быть связаны кореферентной связью с именной группой в той же клаузе
  • (3в) John told Bill about him.

`Джон рассказал Биллу о нем. ' [пример из (Mitkov 1999: 4)]

· Семантическая связанность (семантические характеристики антецедента должны совпадать с семантическими характеристиками анафора)

Также, в работе говорится о таком параметре, как выделенность (salience), который не является обязательным ограничением, но может повлиять на выбор антецедента в определенных случаях. Так, к примеру, в предложении:

(4) Джон поставил стакан на блюдо и разбил его.

Даже человек испытывает трудности с определением анафорической связи. Но, если бы в данном случае был контекст, в котором рассказывается о блюде, то оно бы с наибольшей вероятностью оказалось бы антецедентом в данном случае. И как раз таки выделенность, т.е. сколько раз встретилось это слово до этого, влияет на эту вероятность.

Первые алгоритмы для распознавания анафорических отношений появились во второй половине двадцатого века (подробнее Mitkov 1999: 7). Они были в большей степени основаны на правилах, без использования статистического метода, либо машинного обучения.

В работе (Jurafsky and Martin 1999: 678) описывается алгоритм, который в некоторой степени обобщает все, ему предшествующие:

  • 1) Собрать всех потенциальных референтов (на расстоянии одного предложения);
  • 2) Убрать потенциальных референтов, которые не согласуются в роде и числе с местоимением;
  • 3) Убрать референтов, которые нарушают синтаксические ограничения
  • 4) Посчитать контекстный вес каждого референта;
  • 5) Выбрать референта с наибольшим контекстным весом (если нет такого, то выбрать ближайшего референта).

Данный алгоритм никак не рассматривает синтаксические зависимости в дереве.

В этой же работе описывается "A Tree Search Algorithm" (Hobbs 1978), который работает с синтаксическими представлениями предложений. Шаги в этом алгоритме следующие:

  • 1) Начинать с именной группы, которая доминирует над местоимением;
  • 2) Идти выше по дереву до первой именной группы или начала предложения и назвать этот узел "Х", а путь к нему "p";
  • 3) Пройти по всем веткам ниже "Х" слева направо от пути "p" и пометить все встретившиеся именные группы как потенциальные антецеденты;
  • 4) Если узел "Х" самый высокий в дереве, пройти по дереву предыдущего предложения в той же манере, что и в пункте 3, и отметить все именные группы как потенциальные антецеденты. Если узел "Х" не самый высокий в предложении, то перейти к пункту 5;
  • 5) От узла "Х" следовать выше по дереву до первой именной группы и назначить ее узлом "Х", а путь к нему "p";
  • 6) Если путь "р" не проходит через узел, которым управляет "Х", то предположить, что "Х" - это антецедент;
  • 7) Пройти по всем веткам под узлом "Х", каждую именную группу обозначить как потенциальный антецедент;
  • 8) Если "Х" это самый высокий узел, то пройти по всем узлам ниже, кроме тех, что уже были пройдены, и отметить все именные группы как потенциальные антецеденты;
  • 9) Вернуться к 4 пункту.

Утверждается, что этот алгоритм предполагает, что дерево непосредственных составляющих полное и правильное. В таком случае, точность работы алгоритма составляет 88 процентов.

Но, спустя некоторое время, этот алгоритм признали недостаточным, но в то же время большим прорывом для работ того времени.

Первые статистические методы в распознавании анафорических отношений (Mitkov 1999) были применены вместе с традиционными лингвистическими подходами. Модель работала с модулями, которые обращаются к разной информации о тексте: синтаксической, семантической и дискурсивной. Семантический модуль проверял семантическую связанность между антецедентом и анафором, убирал неподходящих кандидатов, исходя из семантики глагола или одушевленности кандидата. Также, есть модуль, который с помощью статистической модели Байеса, предлагает все возможные главные элементы дискурса, тем самым, придавая контекстный вес антецедентам.

Одна из первых работ (Connolly, Burger and Day 1994) по выявлению анафорических связей с помощью машинного обучения ставит эту проблему как проблему классификации. Их алгоритм работает с парой предполагаемых антецедентов и анафоров, тем самым, выбирая из двух кандидатов "лучший". Каждый элемент (два кандидата + анафор) представлялся в виде вектора, в котором каждый атрибут вектора описывает характеристики потенциальных антецедентов и анафоров, а также, информацию о связях между ними.

Таким образом, алгоритм сортирует всех потенциальных кандидатов, берет по два кандидата, выбирает "лучшего", "худший" удаляется из списка кандидатов, а первый ("лучший") сравнивается с другими кандидатами. Далее процесс продолжается, пока не останется только один кандидат, которого система в итоге назовет антецедентом анафору.

Еще одна работа (Aone and Bennet 1996), основанная на машинном обучении, показала очень хорошие результаты, а именно точность алгоритма была почти 90 процентов. В этой системе вектора для обучения создавались для каждого потенциального антецедента и анафора. Вектор включал в себя 66 признаков для обучения, среди которых были лексические, семантические, синтаксические и связанные с позицией анафора и кандидата в тексте.

Можно выделить еще один подход (Mitkov 1998) в распознавании анафорических отношений, а именно "knowledge-poor approach". Суть данного алгоритма в том, что он берет текст после препроцессинга (part-of-speech tagger), определяет именные группы на дистанции в два предложения, проверяет их на согласование по роду и числу и добавляет некоторый показатель, который измеряется следующим образом: все потенциальные антецеденты получают некоторые очки (2,1,0,-1) за определенные характеристики. Характеристики эти включают в себя самые различные (семантические, синтаксические, дискурсные) признаки. В итоге, исходя из суммы эти очков по всем параметрам, система выявляет наиболее вероятного кандидата, согласному тому, что наибольшая сумма означает наибольшую вероятность.

Во всех вышеперечисленных системах можно выделить общую тенденцию в структуре их реализации. Алгоритм состоит из следующих шагов:

1) поиск именных групп (потенциальных антецедентов) 2) анализ пар потенциальный антецедент + анафор по определенным синтаксическим параметрам, определение вероятности того, что пара отображает кореферентную связь. Разница заключается в использовании этих параметров, потому как представлены как rule-based подходы, так и алгоритмы, основанные на машинном обучении. И по результатам работ систем нельзя определенно выявить преимущество одних перед другими.

Помимо такого подхода к машинному обучению, как классификация, при определении анафорических связей использовались и нейронные сети (Clark 2015). Данная система работает не только с местоименными анафорами, но и с именными группами. Алгоритм работает с разными сущностями, которые упоминаются в тексте, и для каждой пары собираются признаки, которые образуют репрезентативные вектора. Один из признаков относится к области дистрибутивной семантики. То есть для каждой сущности строится контекстный вектор, отображающий его контекст, и на основе этих векторов для каждой потенциально кореферентной пары определяется семантическая близость, которая соответствует косинусному коэффициенту между векторами. К этим векторам также добавляются различные позиционные признаки. Контекстные вектора строятся с помощью алгоритма word2vec URL: https: //code. google.com/archive/p/word2vec/. Таким образом, нейронная сеть обучается на большом количестве признаков, среди которых есть те, что относятся к семантике именных групп. Результаты работы системы выдают точность в 77 процентов.

Сама реализация данной системы очень сложна, но главное, что можно отметить, это использование семантической близости, которая достается с помощью контекстных векторов, как обучающего признака. Система реализована для английского языка, но алгоритм word2vec в настоящий момент уже имеет модель, обученную на русских корпусах и распространяющуюся в свободном доступе. Данный алгоритм можно использовать для того, чтобы посчитать семантическую близость контекста местоимения и контекста антецедента. Под контекстом антецедента понимается вся именная группа, а под контекстом местоимения - глагол, управляющий им.

Существует также работа (Kong, Zhou, Qian and Zhu 2010) по изучению вклада признаков, которых можно получить с помощью дерева зависимостей, на алгоритм распознавания анафорических отношений. Эта работа предлагает новую схему для нахождения анафорических связей в синтаксическом дереве.

В работе используется не только синтаксическое дерево зависимостей, но и семантическое. Алгоритм выглядит следующим образом:

  • 1) Сгенерировать полное синтаксическое дерево зависимостей для данного предложения;
  • 2) Убрать все лишнее в дереве, оставив только путь от корня дерева до заданного узла;
  • 3) Извлечь все синтаксические зависимости в предложении, используя синтаксический парсер, и прикрепить к этим зависимостям узлы, которые связаны с заданным узлом, и их путь к корню дерева;
  • 4) Добавить все предикаты узлов по пути от корня до заданного узла и их путь;
  • 5) Извлечь из всех полученных предикатов семантические зависимости с помощью семантического парсера.

Синтаксическая близость узлов измеряется с помощью длин от узлов до корня.

В итоге, для каждой пары антецедент + анафор строится вектор, учитывающий расстояния и дистанции в дереве зависимостей (всего 33 признака). Результат работы системы показал увеличение показателей системы в среднем до 10 процентов, отсюда можно сделать вывод, что те признаки, которые можно получить от синтаксического дерева зависимостей, влияют на алгоритм распознавания анафорических отношений. Но при этом, стоит заметить, что результат работы системы в некотором роде зависит от качества работы синтаксического парсера.

Последние работы по выявлению анафорических отношений в русском языке были представлены на конференции "Диалог" URL: http: //www.dialog-21.ru/ в 2014 году.

В первой работе (Kamenskaya, Khramov and Smirnov 2014) описывается метод разрешения анафорической связи на основе машинного обучения. Для обучения системы используются морфологические, синтаксические и семантические признаки.

Среди который присутствуют:

  • 1) Согласование в роде, числе, падеже и одушевленности;
  • 2) Различные позиционные признаки;
  • 3) Обозначение связей между потенциальным антецедентом и анафором;
  • 4) Семантические роли.

Алгоритм для распознавания анафорических отношений выглядит следующим образом:

  • 1) Найти первого анафора, для которой еще не был найден антецедент;
  • 2) Найти все существительные или местоимения, для которых анафор уже был найден, между анафором и антецедентом. Они должны быть согласованы в роде и числе;
  • 3) Добавить их в гипотетически-возможный список антецедентов;
  • 4) Добавить каждому местоимению в списке категорию семантического класса его антецедента;
  • 5) Посчитать вероятность каждого предполагаемого антецедента, используя метод классификации;
  • 6) Выбрать антецедента с наибольшим показателем вероятности.

В итоге, результаты работы системы с семантическими признаками показали улучшение результатов работы системы без таковых до 6 процентов.

Из данной работы можно взять базовые признаки для машинного обучения. Для семантических признаков нужна дополнительная разметка, которая в задачи настоящего исследования не входит.

Следующая работа (Protopopova et al, 2014), представленная на конференции, тоже направлена на разрешение анафорических отношений с помощью машинного обучения. Ряд признаков для машинного обучения примерно такой же, как и в предыдущей статье (расстояние, согласование), что говорит о том, что эти признаки являются основными в задаче разрешения анафорических отношений. Кроме них, авторы статьи также добавили синтаксические признаки, а именно:

  • 1) Является ли антецедент подлежащим;
  • 2) Является ли анафор подлежащим.

Результаты системы в итоге меньше, чем в других работах, но можно попробовать добавить данные синтаксические признаки в настоящее исследование.

Другая работа (Ionov and Kutuzov 2014), представленная на конференции, аналогично использует метод машинного обучения в задаче разрешения анафорических отношений. Признаки, выбранные авторами статьи, во многом совпадают с предыдущими. Но в данной работе показана шкала важности всех признаков, которая выглядит следующим образом:

  • 1) Дистанция в буквах;
  • 2) Дистанция в словах;
  • 3) Дистанция в группах (кандидатах);
  • 4) Длина группы в буквах;
  • 5) Местоимение;
  • 6) Число, которое показывает, сколько раз встретилось слово в тексте;
  • 7) Падеж кандидата;
  • 8) Тип местоимения;

Кроме машинного обучения авторы статьи разработали систему, работающую только на правилах (rule-based). В итоге самый лучший результат система показала в результате гибридного подхода, т.е. совмещения машинного обучения и правил. Точность составила 65 процентов.

Таким образом, все последние работы выполнены с помощью метода машинного обучения. Признаки для обучения примерно совпадают, но большинство авторов не используют дерево зависимостей в своих системах для русского языка.

В качестве основного метода реализации системы было выбрано машинное обучение с различным набором признаков, потому что с его помощью можно оценить вклад различных признаков в распознавании анафорических связей. Тем самым, можно определить наиболее значимые лингвистические факторы. В качестве основных базовых признаков были выбраны признаки, которые по рассчетам, представленным в работе (Ionov and Kutuzov 2014), имеют наибольший вес. Следует также заметить, что все системы для русского языка по-разному реализовывали задачу извлечения именных групп. Но в настоящей работе будет использован собственный алгоритм для извлечения именных групп с помощью дерева зависимостей (подробности в пункте 2.3.2.).

 
Если Вы заметили ошибку в тексте выделите слово и нажмите Shift + Enter
< Предыдущая   СОДЕРЖАНИЕ   Следующая >
 
Предметы
Агропромышленность
Банковское дело
БЖД
Бухучет и аудит
География
Документоведение
Естествознание
Журналистика
Информатика
История
Культурология
Литература
Логика
Логистика
Маркетинг
Математика, химия, физика
Медицина
Менеджмент
Недвижимость
Педагогика
Политология
Право
Психология
Религиоведение
Социология
Статистика
Страховое дело
Техника
Товароведение
Туризм
Философия
Финансы
Экология
Экономика
Этика и эстетика
Прочее