Меню
Главная
Авторизация/Регистрация
 
Главная arrow Литература arrow Исследование вклада синтаксических признаков в распознавание анафоричесних отношений

Эксперимент 2 (syntax2)

Поскольку предыдущий эксперимент оказался успешным, внедрение следующих признаков будет независимым, то есть все признаки, которые уже были использованы, останутся, а к ним будут добавлены новые, а именно:

  • 1) тип синтаксической связи антецедента со словом, его контролирующим;
  • 2) глубина антецедента (расстояние от антецедента до корня в дереве).

Однако глубину антецедента и анафора в дереве можно объединить, то есть из этой комбинации можно получить два признака:

  • 3) разница уровней в дереве (уровень антецедента vs уровень местоимения);
  • 4) расстояние от анафора до антецедента.

Последний признак можно посчитать, только если анафор и потенциальный антецедент находятся в одном предложении. Для тех кандидатов, которые расположены в других предложения (т.е. не в том, где анафор), было решено добавить коэффициент, который отражал бы разницу в предложениях. То есть, к примеру, если взять коэффициент "+100" для каждого предложения получатся следующие результаты: данный признак в первом предложении должен выдавать значения от 0 до 100, то есть предполагается, что максимальная длина от антецедента до анафора в одном предложении не должна превышать 100; тогда во втором предложении данный признак будет получать значения от 100 до 200 и т.д. Алгоритм поиска расстояния от анафора до антецедента в одном предложении следующий:

  • 1) для анафора и антецедента получить список из узлов от анафора/антецедента до корня;
  • 2) посчитать путь до общего узла для антецедента и анафора (первый узел, встретившийся в двух списках сразу);
  • 3) сложить полученные пути и вычесть 1.

Ожидается, что четыре новых признака повысят результаты работы алгоритма, потому как они добавляют характеристики антецедента, которых ранее не было.

Аналогично таблице о типах синтаксических отношений для анафора была подсчитана такая же статистика и для антецедентов. Поскольку таблица слишком большая, она доступна в приложении 2. Однако можно рассмотреть диаграмму распределения, она представлена в диаграмме 2.

Из диаграммы 2 видно, что основное распределение идет на следующие отношения: предл, 1-компл, предик, квазиагент, соч-союзн, аппоз). Аналогично методу, примененному в первом эксперименте, было решено закодировать самые частотные отдельными номерами, а остальные оставшиеся нулевым.

Неописанные синтаксические отношения, вошедшие в список самых частотных:

  • 1) соч-союзн: Х - сочинительный союз, Y - вершина второго из однородных членов или предложений;
  • 2) аппоз: Х - существительное, Y - следующее за ним приложение. Обычно X и Y согласованы по падежу и числу.

Результаты работы классификатора с новым алгоритмом представлены в таблице 5.

Таблица 5.

Precision

Recall

F1-score

Baseline

0.81

0.33

0.47

Baseline + syntax1

0.75

0.42

0.54

Baseline + syntax1 (1/5) fixed

0.76

0.43

0.55

Baseline + syntax1 fixed + syntax2

0.78

0.46

0.58

Добавление новых четырех признаков улучшило показатели классификатора на 0.03 (F1-score был 0.55, стал 0.58). Это говорит о том, что синтаксические отношения связывающие антецедент с анафором (расстояние, отношение уровней), положительно влияют на работу системы.

 
Если Вы заметили ошибку в тексте выделите слово и нажмите Shift + Enter
< Предыдущая   СОДЕРЖАНИЕ   Следующая >
 
Предметы
Агропромышленность
Банковское дело
БЖД
Бухучет и аудит
География
Документоведение
Естествознание
Журналистика
Информатика
История
Культурология
Литература
Логика
Логистика
Маркетинг
Математика, химия, физика
Медицина
Менеджмент
Недвижимость
Педагогика
Политология
Право
Психология
Религиоведение
Социология
Статистика
Страховое дело
Техника
Товароведение
Туризм
Философия
Финансы
Экология
Экономика
Этика и эстетика
Прочее