Введение

Корпусная лингвистика занимается разработкой корпусов текстов, которые состоят из электронных документов, которые объединены по определенной тематике или некоторым общим свойствам. Далее лингвисты исследуют корпуса текстов, чтобы получить статическую информацию об интересующем их явлении, например, какие слова, морфемы, словосочетания наиболее чаще используются в тексте, какие семантические и синтаксические конструкции преобладают в тексте и т.д.

Большинство популярных систем для работы с корпусами текстов предоставляют возможности хранения текстов, аннотирования текстов, сохранения результатов в текстовый файл, поиска слов, словосочетаний, предложений по заданному шаблону, однако эти системы имеют ряд недостатков. Во-первых, пользователь должен уметь работать со специальным языком, который задает правила для получения результата. Во-вторых, пользовать получает результаты в текстовом файле и ему необходимо их обработать, чтобы наглядно визуализировать. В-третьих, пользователь должен хранить файл текста, этот же текст без форматирования, аннотации данного текста, правила, по которым производилась аннотация текста, в некотором хранилище, чтобы иметь возможность использовать их в дальнейших исследованиях. В-четвертых, большинство систем стоят немалых денег. Основываясь на вышеуказанных недостатках существующих продуктов, было решено создать новую систему для аннотирования текстов, в которой будут устранены недостатки существующих, поэтому можно сказать, что разработка системы является актуальной, т.к. система будет удобной для пользователей, не имеющих отношение к сфере информационных технологий.

Одним из основных компонентов таких систем является хранилище. Хранилища существующих систем отвечают требованиям масштабируемости, доступности и имеют пользовательский интерфейс, т.е. пользователь может читать, добавлять, изменять и удалять корпуса текстов, тексты и выполнять другие действия посредствам графического интерфейса. Однако эти хранилища не отвечают текущим требованиям. Во-первых, хранилища позволяют хранить только определенные форматы документов, следовательно, не являются гетерогенными. Во-вторых, хранилище должно иметь программный доступ, т.е. предоставлять возможность другим программистам обращаться к хранилищу через интерфейсы прикладного уровня. В-третьих, хранилище должно быть адаптивным, т.е. должно уметь сохранять динамически добавляемые атрибуты.

Объектом исследования является хранение цифровых данных. Предметом исследования является реализация облачного хранилища корпусов текстов.

Цель данной работы является разработка облачного хранилища корпусов текстов в гетерогенных форматах и веб-сервисов для работы с хранилищем.

Для достижения поставленной цели были сформулированы следующие задачи:

  • 1. Провести анализ систем и приложений для хранения корпусов текстов.
  • 2. Выявить требования к данным, содержащимся в хранилище, и все прецеденты для работы с базой данных и BLOB хранилищем.
  • 3. Выполнить проектирование работы веб-сервисов для того, чтобы обеспечить совместную работу реляционной базы данных и BLOB хранилища
  • 4. Выбрать программную и облачную платформу для реализации и размещения реляционной базы данных, BLOB хранилища и веб-сервисов.
  • 5. Реализовать реляционную базу данных, BLOB хранилище и веб-сервисы для работы с хранилищем.
 
< Пред   СОДЕРЖАНИЕ   Загрузить   След >