Выявление требований к данным хранилища и прецедентов для работы с хранилищем

Выявление требований к данным хранилища

В ходе исследования предметной области выявлены требования к данным хранилища. Данное хранилище должно содержать информацию о текстовых корпусах, текстовых файлах, шаблонах, аннотациях, пользователях и связях между ними.

Текстовый корпус имеет уникальный идентификатор, название, список ссылок на текстовые файлы, которые в него входят. Текстовый корпус также имеет дополнительные атрибуты, которые могут не существовать изначально, например, месторождения авторов текстов, дислокация собираемых материалов и т.д., однако атрибуты могут быть вложены внутри других атрибутов.

Каждый текстовый файл имеет уникальный идентификатор, название, расширение файла, расширение текста без форматирования, сам файл, представленный в массиве байтов, файл текста без форматирования, представленный в массиве байтов, список аннотацией. Вместе с тем текстовый файл имеет дополнительные атрибуты, которые могут не существовать изначально, например, пол автора, количество детей автора, место его рождения и т.п., однако атрибуты могут быть вложены внутри других атрибутов. Текстовый файл может быть создан и без текстового корпуса.

Шаблон - это правило для выделения определенных частей текста, например существительных, глаголов и т.п. Шаблон состоит из уникального идентификатора, имени и правила.

Аннотация - это текстовый файл, который был обработан лингвистическим процессором с применением шаблонов. Аннотация состоит из названия, уникального идентификатора, типа файла, файла, представленного в массиве байтов. Также аннотация должна содержать дополнительные атрибуты, которые могут не существовать изначально, например, когда аннотация была создана и т.п., однако атрибуты могут быть вложены внутри других атрибутов. Аннотация не может существовать без текстового файла, поэтому при удалении текстового файла необходимо удалять все аннотации, построенные на его основе.

Самая важная часть хранилища - это пользователь, который имеет уникальный идентификатор, логин, электронную почту, пароль, список текстовых корпусов, список текстовых файлов, список аннотаций, список шаблонов. С каждым элементом из этих списков пользователь связан дополнительными атрибутами, такими как тип доступа и тип пользователя. Тип доступа может быть трех видов: читать, писать, читать и писать. Тип пользователя может делиться на два вида: гость и владелец.

Исходя из выявленных требований, мы понимаем, что текстовый файл и аннотация должны хранить файлы, которые являются, по сути, набором массивов байтов. Однако реляционная база данных не самое подходящее хранилище для хранения подобного типа данных, следовательно, необходимо создать два отдельных хранилища: для метаданных, которые будут храниться в реляционной базе данных, и файлов, которые будут храниться в BLOB хранилище.

 
< Пред   СОДЕРЖАНИЕ   Загрузить   След >