Поскольку предыдущий эксперимент оказался успешным, внедрение следующих признаков будет независимым, то есть все признаки, которые уже были использованы, останутся, а к ним будут добавлены новые, а именно:
1) тип синтаксической связи антецедента со словом, его контролирующим;
2) глубина антецедента (расстояние от антецедента до корня в дереве).
Однако глубину антецедента и анафора в дереве можно объединить, то есть из этой комбинации можно получить два признака:
3) разница уровней в дереве (уровень антецедента vs уровень местоимения);
4) расстояние от анафора до антецедента.
Последний признак можно посчитать, только если анафор и потенциальный антецедент находятся в одном предложении. Для тех кандидатов, которые расположены в других предложения (т.е. не в том, где анафор), было решено добавить коэффициент, который отражал бы разницу в предложениях. То есть, к примеру, если взять коэффициент "+100" для каждого предложения получатся следующие результаты: данный признак в первом предложении должен выдавать значения от 0 до 100, то есть предполагается, что максимальная длина от антецедента до анафора в одном предложении не должна превышать 100; тогда во втором предложении данный признак будет получать значения от 100 до 200 и т.д. Алгоритм поиска расстояния от анафора до антецедента в одном предложении следующий:
1) для анафора и антецедента получить список из узлов от анафора/антецедента до корня;
2) посчитать путь до общего узла для антецедента и анафора (первый узел, встретившийся в двух списках сразу);
3) сложить полученные пути и вычесть 1.
Ожидается, что четыре новых признака повысят результаты работы алгоритма, потому как они добавляют характеристики антецедента, которых ранее не было.
Аналогично таблице о типах синтаксических отношений для анафора была подсчитана такая же статистика и для антецедентов. Поскольку таблица слишком большая, она доступна в приложении 2. Однако можно рассмотреть диаграмму распределения, она представлена в диаграмме 2.
Из диаграммы 2 видно, что основное распределение идет на следующие отношения: предл, 1-компл, предик, квазиагент, соч-союзн, аппоз). Аналогично методу, примененному в первом эксперименте, было решено закодировать самые частотные отдельными номерами, а остальные оставшиеся нулевым.
Неописанные синтаксические отношения, вошедшие в список самых частотных:
1) соч-союзн: Х - сочинительный союз, Y - вершина второго из однородных членов или предложений;
2) аппоз: Х - существительное, Y - следующее за ним приложение. Обычно X и Y согласованы по падежу и числу.
Результаты работы классификатора с новым алгоритмом представлены в таблице 5.
Таблица 5.
Precision
Recall
F1-score
Baseline
0.81
0.33
0.47
Baseline + syntax1
0.75
0.42
0.54
Baseline + syntax1 (1/5) fixed
0.76
0.43
0.55
Baseline + syntax1 fixed + syntax2
0.78
0.46
0.58
Добавление новых четырех признаков улучшило показатели классификатора на 0.03 (F1-score был 0.55, стал 0.58). Это говорит о том, что синтаксические отношения связывающие антецедент с анафором (расстояние, отношение уровней), положительно влияют на работу системы.
Если Вы заметили ошибку в тексте выделите слово и нажмите Shift + Enter