Меню
Главная
Авторизация/Регистрация
 
Главная arrow Литература arrow Исследование вклада синтаксических признаков в распознавание анафоричесних отношений

Извлечение именных групп

Важным этапом алгоритма разрешения анафорических связей является определение кандидатов для каждого анафора. Эту проблему авторы работ на данную тему для русского языка решали различными способами, разработанными при помощи Tomita-parser/Freeling. Но так как наша система работает с синтаксически обработанными текстами, было решено реализовать извлечение именных групп с помощью синтаксического дерева. Так как синтаксический разбор предложений был дополнен информацией о сдвиге каждого слова (подробнее будет описано далее), то это делало возможным сравнение именных групп - кандидатов с элементами референтных цепочек.

Алгоритм извлечения именных групп следующий:

  • 1) Найти существительное и запомнить его порядковый номер "Х" в предложении
  • 2) Добавить в список все слова в предложении, которые стоят под узлом с номером "Х"
  • 3) Отсортировать список слов согласно правилам (к правилам относятся следующие:
  • 4) 1) если слово глагол, либо прилагательное в сравнительной степени, либо это служебное слово (пунктуация), то алгоритм удаляет исходное слово из списка вместе со всеми зависимыми словами).2) если это предлог, сочинительный союз или существительное, то алгоритм переходит к пункту 2, используя порядковый номер данного слова как "Х".3) в остальных случаях алгоритм прекращает работу)

Возможно, алгоритм может быть дополнен во время проведения тестов и запуске системы для того, что повысить точность системы. Точность и полнота работы алгоритма не замерялась, так как главная цель этого алгоритма - получить вершину именной группы с показателем сдвига (вершиной именной группы может быть любое существительное). При определении границ именных групп возможны ошибки, которые обусловлены, во-первых, неполнотой описанных ограничений в алгоритме, во-вторых, работой синтаксического парсера, который может быть источником ошибок. Во время работы с синтаксически обработанными тексты выяснилось, что парсер может даже неправильно делить на предложения, тем самым, подтверждая тот факт, алгоритм поиска именных групп зависит от точности работы парсера.

Изначально, алгоритм ищет кандидатов на расстоянии 3+1 предложений от местоимения, т.е. три предложения до исходного плюс исходное предложение. Это расстояние превышает те размеры, которые были взяты авторами статей в работах, описанных в пункте 2.2 Поэтому, возможно, в дальнейшем потребуется изменить расстояние для того, чтобы улучшить эффективность алгоритма.

 
Если Вы заметили ошибку в тексте выделите слово и нажмите Shift + Enter
< Предыдущая   СОДЕРЖАНИЕ   Следующая >
 
Предметы
Агропромышленность
Банковское дело
БЖД
Бухучет и аудит
География
Документоведение
Естествознание
Журналистика
Информатика
История
Культурология
Литература
Логика
Логистика
Маркетинг
Математика, химия, физика
Медицина
Менеджмент
Недвижимость
Педагогика
Политология
Право
Психология
Религиоведение
Социология
Статистика
Страховое дело
Техника
Товароведение
Туризм
Философия
Финансы
Экология
Экономика
Этика и эстетика
Прочее