Меню
Главная
Авторизация/Регистрация
 
Главная arrow Литература arrow Исследование вклада синтаксических признаков в распознавание анафоричесних отношений

Введение

Настоящая работа посвящена исследованию влияния синтаксических признаков на распознавание анафорических отношений. Распознавание кореферентных связей это одна из ключевых проблем обработки естественного языка. Под кореферентными связями понимается отношение между словами в тексте, которые в действительности обозначают одну сущность, другими словами, несут в себе одинаковую информацию. Если слово или именная группа в тексте имеет отношение к другому слову в тексте, которое уже было введено раннее, то эту связь называют анафорической, а само слово является анафором. Следует также сказать, что референтные выражения, обозначающие одну сущность, могут быть либо существительными, либо местоимениями. И основная задача системы для распознавания анафорических отношений - это связи с местоимениями. Автоматическое распознавание анафорических отношений имеет важную роль в обработке естественного языка, потому что помогает связывать различные сущности в тексте, что открывает новые возможности для понимания "системой" текста. Алгоритмы для распознавания анафорических отношений используются в различных направлениях обработки естественного языка, к примеру, при извлечении информации или машинном переводе.

Чтобы продемонстрировать основную задачу распознавания анафорических отношений, я приведу следующий пример:

(1) Маруся долго перелистывала русскую газету. Она внимательно читала объявления.

Анафорическое выражение "Она" является отсылкой к ранее введенному персонажу "Маруся". Слово "Маруся" принято считать антецедентом анафорической связи. Человек достаточно легко справляется с задачей распознавания анафорических связей. Однако система обработки текста не может выделить эту связь теми же методами, что и человек. Основной алгоритм распознавания анафорических отношений заключается в двух этапах:

  • 1) Нахождение всех потенциальных антецедентов на определенном диапазоне перед анафором;
  • 2) Определение наиболее вероятного кандидата.

Потенциальными антецедентами считают все именные группы, встретившиеся на определенном расстоянии перед анафором. Для того, чтобы понять обозначает ли именная группа и местоимение одну сущность, используются разные параметры, которые можно извлечь непосредственно из текста, к примеру, морфологические или синтаксические характеристики слов. Извлечение таких признаков становится возможным только при наличии морфологической/синтаксической разметки, которая, в свою очередь, дополняет текст необходимой информацией, на основе которой система может делать выводы. Последние работы по распознаванию анафорических отношений в русском языке, представленные на конференции Dialog-2014, показали неплохие результаты, но в большинстве работ синтаксический анализ текста никак не учитывался. Под синтаксическим анализом, я имею в виду работу с синтаксическим деревом зависимостей. Синтаксис можно назвать одним из главных пунктов, по которым различаются языки мира, поэтому подход к отдельным языкам может различаться. Существует несколько работ по распознаванию анафорических отношений с помощью дерева зависимостей для английского языка, но для тех же целей в русском языке деревья зависимостей еще не использовались. Этим обусловлена проблема настоящей работы.

Таким образом, цель этой работы - на основе существующих алгоритмов для распознавания анафорических отношений реализовать систему и попытаться улучшить показатели работы системы с помощью параметров, которые можно извлечь из синтаксического дерева зависимостей.

Для достижения цели требуется решить несколько задач:

  • 1) Изучить существующие алгоритмы распознавания анафорических отношений для русского и других языков;
  • 2) Подготовить материалы для системы (корпус текстов);
  • 3) Определить метод работы системы и основные параметры;
  • 4) Получить результаты работы базовой системы;
  • 5) Провести эксперименты с синтаксическими параметрами;
  • 6) Проанализировать влияние синтаксических признаков на результаты работы системы.

В качестве материалов для работы будет взят корпус текстов, с которым работали все участники эксперимента с анафорическими связями на конференции Dialog-2014. Корпус состоит из 86 текстов. Для всех текстов организаторы эксперимента вручную разметили все кореферентные связи. Также, все тексты представлены в синтаксически разобранном виде. Синтаксический разбор был осуществлен с помощью Russian malt (Sharoff and Nivre 2011). Анафорические связи представлены отдельно от текстов. Для реализации системы был использован высокоуровневый язык программирования Python.

кореферентный анаформический распознавание связь

 
Если Вы заметили ошибку в тексте выделите слово и нажмите Shift + Enter
< Предыдущая   СОДЕРЖАНИЕ   Следующая >
 
Предметы
Агропромышленность
Банковское дело
БЖД
Бухучет и аудит
География
Документоведение
Естествознание
Журналистика
Информатика
История
Культурология
Литература
Логика
Логистика
Маркетинг
Математика, химия, физика
Медицина
Менеджмент
Недвижимость
Педагогика
Политология
Право
Психология
Религиоведение
Социология
Статистика
Страховое дело
Техника
Товароведение
Туризм
Философия
Финансы
Экология
Экономика
Этика и эстетика
Прочее