Меню
Главная
Авторизация/Регистрация
 
Главная arrow Литература arrow Исследование вклада синтаксических признаков в распознавание анафоричесних отношений

Реализация системы

Весь исходный код программ для обработки текстов, извлечения признаков и для просмотра результатов машинного обучения доступен по ссылке в приложении 1. Развернутое описание программы для запуска доступно в readme-файле.

Материалы

В качестве материала для настоящей работы был использован корпус текстов, состоящий из 86 документов. Данный корпус использовался участниками конференции Dialog-2014 (Toldova et al 2014) для тестирования алгоритмов по разрешению анафорических связей.

Тексты разделены на группы, как показано в таблице 1.

Таблица 1.

Название группы

Количество текстов

Fiction

24

Lenta

11

News

20

OpenCorpora

20

Otzyvy

5

PhotoDescr

3

Science

3

Тексты каждой группы различаются по жанрам. Объем каждого текста не превышает четырех тысяч слов. Все тексты обработаны синтаксическим парсером Malt-parserURL: http: //web-corpora.net/wsgi3/ru-syntax/, модель которого была разработана для русского языка (Medyankin and Droganova 2016). Данный парсер вместе с синтаксической информацией также выдает морфологическую информацию. Система, разрабатываемая в настоящей работе, получает на вход непосредственно синтаксически обработанные тексты, оригиналы текстов никак не учитываются.

Благодаря порядковому номеру узла, стоящего выше в дереве, можно построить синтаксическое дерево. Синтаксическое дерево для данного примера выглядит следующим образом (схема 1):

Схема 1.

Для наглядности работы синтаксического парсера, в синтаксическом дереве были обозначены ссылки к другим узлам.

Аннотированный корпус предоставляется в виде двух файлов. В первом - содержатся сами тексты. Тексты разбиты на токены и предложения и обработаны системой TreeTagger (Schmid 1994). Формат представления аналогичен формату. conll: информация о каждом токене, включая знаки препинания, содержится на отдельной строке. Для токена указывается: (1) ID текста, (2) ID токена, (3) токен, (4) смещение - смещение первого символа токена относительно начала текста; (5) длина токена в символах; (7) лемма, (8) грамматический тег. Кореферентные связи содержаться во втором документе, и выглядят следующим образом: все связи разделены по номеру документа; для каждого документа выделены кореферентные цепочки, то есть все именные группы, отображающие одну сущность в дискурсе, объединены в одну группу; каждое слово в группе имеет значение "shift" или сдвиг, которое показывает, на какое количество символов от начала документа стоит каждое слово, что помогает связывать обычный текст и данные цепочки; для каждого элемента также известна часть речи и вид связи; именные группы состоящие из нескольких слов сопровождаются добавочной информацией, указывающей на главное слово (вершину) в группе (указан сдвиг).

 
Если Вы заметили ошибку в тексте выделите слово и нажмите Shift + Enter
< Предыдущая   СОДЕРЖАНИЕ   Следующая >
 
Предметы
Агропромышленность
Банковское дело
БЖД
Бухучет и аудит
География
Документоведение
Естествознание
Журналистика
Информатика
История
Культурология
Литература
Логика
Логистика
Маркетинг
Математика, химия, физика
Медицина
Менеджмент
Недвижимость
Педагогика
Политология
Право
Психология
Религиоведение
Социология
Статистика
Страховое дело
Техника
Товароведение
Туризм
Философия
Финансы
Экология
Экономика
Этика и эстетика
Прочее