Меню
Главная
Авторизация/Регистрация
 
Главная arrow Литература arrow Исследование вклада синтаксических признаков в распознавание анафоричесних отношений

Внедрение синтаксиса

Эксперимент 1 (syntax1)

Синтаксические признаки в настоящей работе извлекаются благодаря синтаксической разметке. Синтаксическая разметка предоставляет следующую информацию:

  • 1) положение в дереве зависимостей, а именно: от какого узла (порядковый номер) зависит данный узел (корневой элемент получает значение "0");
  • 2) тип связи между данным узлом и узлом контролирующим данный.

Благодаря информации о положении в дереве, можно посчитать различные расстояния, к примеру, от корня дерева до узла или до другого узла, эти расстояния подробнее будут описаны позже.

Для начала было решено извлечь все возможные признаки из предложения, в котором находится местоимение, и проверить, как они повлияют на работу классификаторов. К таковым относятся:

  • 1) расстояние от корня до местоимения (глубина местоимения);
  • 2) тип связи местоимения и слова, контролирующего данное слово;
  • 3) отношение глубины местоимения к глубине предложения;
  • 4) количество узлов с той же глубиной;
  • 5) количество запятых в предложении.

Сами по себе признаки никак не связаны с потенциальным антецедентом, отсюда можно сделать вывод, что значительного влияния на работу классификаторов признаки оказать не должны. Эксперимент осуществляется с помощью классификатора SVM. В данном эксперименте был выбран другой тренировочный сет, нежели при сравнении классификаторов, поэтому результаты могут измениться.

Результаты добавления признаков, перечисленных выше, представлены в таблице 4.

Таблица 4.

Precision

Recall

F1-score

Baseline

0.81

0.33

0.47

Baseline + syntax1

0.75

0.42

0.54

Результаты получились в целом лучше, чем дали базовые признаки (F1-score был 0.47, стал 0.54). Хотя предполагалось, что из-за того, что признаки никак не связаны с антецедентом, добавление данного набора не должно было существенно повлиять на работу системы. Однако, как можно заметить из таблицы 4, добавление признаков увеличило качество работы системы на 7 процентов. Можно попробовать изменить некоторые признаки, а именно: связать их с антецедентом для того, чтобы еще увеличить показатели. К примеру, глубину местоимения можно связать с глубиной антецедента, таким образом, получив некоторое позиционное отношение антецедента и анафора.

К тому же, благодаря второму признаку, а именно типу связи местоимения и слова, контролирующего его, удалось получить частотный список типов связей местоимения с его вершиной (т.е. типов пассивных валентностей местоимения). Список представлен в таблице 5.

В таблице 5 количество, указанное во втором столбце не соответствует количеству в основном корпусе текстов, поскольку для каждого местоимения строятся несколько векторов, а данный показатель отражает как раз таки количество связей в тренировочном корпусе.

Но соотношение между количеством связей в оригинальных текстах и количеством в тренировочном корпусе должно совпадать.

Данная статистика из таблицы 5 может помочь улучшить сам признак типа связей следующим образом: анализ диаграммы 1 показывает, что основное распределение синтаксических отношений (95%) основано на первых шести признаках (предик, опред, предл, 1-компл, квазиангет, 2-компл), а значит, что можно закодировать перечисленные типы связей под отдельными номерами, остальные же объединить в один нулевой тип, тем самым, уменьшить количество возможных вариантов признака.

Таким образом, получится 6 типов связи и одна общая группа.

Таблица 5.

Тип связи

Количество в корпусе

предик

9880

опред

4470

предл

4429

1-компл

4196

квазиагент

3416

2-компл

1388

атриб

357

неакт-компл

224

вспом

199

агент

175

дат-субъект

172

ROOT

124

соч-союзн

46

сент-соч

26

обст

25

суб-копр

20

сравнит

17

Оставшиеся синтаксические отношения:

  • 1) предик: Предикативное отношение связывает сказуемое X в качестве хозяина с подлежащим Y в качестве слуги;
  • 2) опред: Х - существительное или прилагательное, Y - прилагательное или причастие. Обычно Y согласуется с X по роду, числу, падежу и одушевленности;
  • 3) предл: Х - предлог, Y - именная группа, зависящая от предлога;
  • 4) 1-компл, 2-компл: Эти синтаксические отношения связывают предикатное слово (глагол, существительное, прилагательное или наречие) с его (не первыми) синтаксическими актантами, а именно: 1-ое комплетивное синтаксическое отношение связывает слово с его вторым актантом, 2-е комплетивное - с 3-им актантом;
  • 5) квазиагент: X - предикатное существительное, Y - слово, реализующее первую синтаксическую валентность этого слова, т.е. указывающее на его субъект.

Объединив девять синтаксических отношений, удалось увеличить показатели классификатора:

Таблица 4.

Precision

Recall

F1-score

Baseline

0.81

0.33

0.47

Baseline + syntax1

0.75

0.42

0.54

Baseline + syntax1 (1/5) fixed

0.76

0.43

0.55

После объединения синтаксических отношений в специальные группы удалось увеличить результаты работы классификаторов на 0.01. Возможно, уменьшение количества вариантов данного признака (тип синтаксической связи) добавит еще немного к качеству работы классификатора, но было решено оставить группы в таком количестве, потому что они все являются значимыми (согласно информации из таблицы 5) для анафорических отношений, так что данный признак сможет значительнее повлиять на работу классификатора только при увеличении тренировочного набора векторов, т.е. при большем количестве документов с размеченными кореферентными связями.

 
Если Вы заметили ошибку в тексте выделите слово и нажмите Shift + Enter
< Предыдущая   СОДЕРЖАНИЕ   Следующая >
 
Предметы
Агропромышленность
Банковское дело
БЖД
Бухучет и аудит
География
Документоведение
Естествознание
Журналистика
Информатика
История
Культурология
Литература
Логика
Логистика
Маркетинг
Математика, химия, физика
Медицина
Менеджмент
Недвижимость
Педагогика
Политология
Право
Психология
Религиоведение
Социология
Статистика
Страховое дело
Техника
Товароведение
Туризм
Философия
Финансы
Экология
Экономика
Этика и эстетика
Прочее