Система «Sketch Engine»

Система «Sketch Engine» является веб-системой, которая позволяет лингвистам исследовать большие корпуса текстов и создавать сложные запросы, чтобы извлекать нетривиальную информацию из этих корпусов.

Система предоставляет пользователю возможность воспользоваться ограниченным набором функцией в течение 30 дней бесплатно, после окончания пробного использования пользователю необходимо приобрести одну из существующих подписок. Система предоставляет несколько вариантов подписок, каждая из подписок имеет собственный набор инструментов, готовых корпусов текстов и ограниченный объем памяти для создания корпусов текстов. Также система имеет дополнительные услуги, которые могут быть приобретены пользователем, например, увеличение объема памяти.

Система содержит 292 готовых текстовых корпусов, которые пользователь может использовать для своих исследований. Если рассматривать количество корпусов по языкам, то всего используется 70 языков. Если посчитать количество слов во всех корпусах, то получим 240 279 265 530 слов. Наибольшим из них является корпус английского языка «enTenTen», который состоит из 19 717 205 676 слов и 22 878 431 750 токенов, самым маленьким является корпус африканского языка «CHILDES Afrikaans Corpus», который содержит 26 020 слов и 33 134 токенов. Некоторая часть корпусов является закрытой и доступной только для тех, кто оплатил полную подписку.

Данная система позволяет загрузить собственный корпус текстов в различных форматах: «doc», «docx», «htm», «html», «pdf», «ps», «tar.bz2», «tar.gz», «tgz», «tmx», «txt», «vert», «xml», «zip». Бесплатно ресурс позволяет создать корпус текстов с миллионом слов, что примерно равно 50 Мб. После того, как файлы были загружены, корпус необходимо откомпилировать: создать схемы слов, словарь для слов, выделить термины, выделить память для хранения данных, очистить предыдущее хранилище. К счастью, данные действия система производит автоматически, а пользователь видит только процентную шкалу, на которой отображается каждый из процессов.

Для анализа текстов пользователю доступен большой спектр инструментов, начиная от обычного поиска слова в тексте, заканчиваю специальными фильтрами для поиска предложений по определенной схеме, также система имеет свой собственный регулярный язык, который позволяет пользователю, находи определенные типы предложений и создавать различные специализированные запросы. В системе не существует возможности для сохранения полученных результатов на компьютер пользователя. Система разграничивает функциональные возможности по ролям, некоторая часть корпусов текстов является закрытой для использования. Также имеется ограничения на создание собственных корпусов текстов. Система не имеет программного доступа и не может сохранять динамически добавляемые атрибуты.

Вывод: система является хорошей для проведения исследований на больших текстовых корпусах. Система обладает большими функциональными возможностями для анализа текстовых корпусов, имеет динамически расширяемое хранилище и готовые текстовые корпуса. Однако данная система не является полностью бесплатной и предоставляет исследователю бесплатно только хранилище на 1.000.000 слов и 30 дней бесплатного использования.

 
< Пред   СОДЕРЖАНИЕ   Загрузить   След >