Меню
Главная
Авторизация/Регистрация
 
Главная arrow Информатика arrow Автоматизированный системно-когнитивный анализ и его применение для управления социально-экономическими системами в АПК

Сравнение, идентификация и прогнозирование, как разложение векторов объектов в ряд по векторам классов (объектный анализ)

Ранее были введены неметрические интегральные критерии сходства объекта, описанного массивом-локатором Li с обобщенными образами классов Iij (выражения 40-42).

Для непрерывного случая выражение (42) принимает вид:

(45)

Таким образом, выражение (45) представляет собой обобщение интегрального критерия сходства конкретного объекта и обобщенного класса (42) для непрерывного случая в координатной форме.

Отметим, что коэффициенты ряда Фурье (24) по своей математической форме и смыслу сходны с ненормированными коэффициентами корреляции, т.е. по сути скалярными произведениями для непрерывных функций в координатной форме: выражением (45) между разлагаемой в ряд кривой f(x) и функциями Sin и Сos различных частот и амплитуд [7].

(46)

где n = {1, 2, 3,…} - натуральное число.

Сравнение выражений (45) и (46) позволяет сделать вывод о том, что процесс идентификации и прогнозирования (распознавания, реализованный в предложенной математической модели, может рассматриваться как разложение вектора-локатора распознаваемого объекта в ряд по векторам информативностей классов распознавания (которые представляют собой произвольные функции, сформированные при синтезе модели путем многопараметрической типизации на основе эмпирических данных).

Например, представим результаты идентификации на рисунке 2:

Рис. 4. Пример разложения профиля состояния МИПС АПК, сложившегося в 2001 г., в ряд по образам классов

Продолжая развивать аналогию с разложением в ряд, данный результат идентификации можно представить в векторной аналитической форме:

или в координатной форме, более удобной для численных расчетов:

(47)

Предполагается, что . Таким образом, массив-локатор, характеризующий распознаваемый объект, рассматривается как сумма произведений профилей классов на интегральный критерий сходства массива-локатора с этими профилями (т.е. взвешенная суперпозиция или разложение в ряд по профилям классов).

В выражении (47):

где I(j) - интегральный критерий сходства массива-локатора, описывающего состояние объекта и j-го класса рассчитываемый, согласно выражений (42) или (44):

(48)

I(i,j) - вектор обобщенного образа j-го класса, координаты которого рассчитываются в соответствии с системным обобщением формулы Харкевича (18):

(49)

Обозначения I(i,j) и Iij, и т.п. эквивалентны. Смысл всех переменных, входящих в выражения (48) и (49) раскрыт выше.

При дальнейшем развитии данной аналогии естественно возникают вопросы: о полноте, избыточности и ортонормированности системы векторов классов как функций, по которым проводится разложение вектора объекта; о сходимости, т.е. возможности и корректности такого разложения.

В общем случае вектор объекта совершенно не обязательно должен разлагаться в ряд по векторам классов таким образом, чтобы сумма ряда во всех точках совпадала со значениями исходной функции. Это означает, что система векторов классов может быть неполна по отношению к профилю распознаваемого объекта, и, тем более, всех возможных объектов.

Предлагается считать не разлагаемые в ряд, т.е. плохо распознаваемые объекты суперпозицией хорошо распознаваемых объектов ("похожих" на те, которые использовались для формирования обобщенных образов классов), и объектов, которые и не должны распознаваться, так как объекты этого типа не встречались в обучающей выборке и не использовались для формирования обобщенных образов классов и не коррелирует с ними, а также не относятся к представляемой обучающей выборкой генеральной совокупности.

Нераспознаваемую компоненту можно рассматривать либо как шум, либо считать ее полезным сигналом, несущим ценную информацию о неисследованных объектах интересующей нас предметной области (в зависимости от целей и тезауруса исследователей). Использование первого варианта не приводит к осложнениям, так как примененный в математической модели алгоритм сравнения векторов объектов и классов, основанный на вычислении нормированной корреляции Пирсона (сумма произведений), является весьма устойчивым к наличию белого шума в идентифицируемом сигнале. При использовании второго варианта необходимо дообучить систему распознаванию объектов, несущих такую компоненту (в этой возможности и заключается адаптивность модели). Технически этот вопрос решается копированием описаний плохо распознавшихся объектов из распознаваемой выборки в обучающую, их идентификацией экспертами и дообучением системы. Кроме того, может быть целесообразным расширить справочник классов распознавания новыми классами, соответствующими этим объектам, и осуществить пересинтез модели. Это позволяет расширить генеральную совокупность, отражаемую моделью, по отношению к которой обучающая выборка репрезентативна.

Однако на практике гораздо чаще наблюдается противоположная ситуация (можно даже сказать, что она типична), когда система векторов избыточна, т.е. в системе классов распознавания есть очень похожие классы (между которыми имеет место высокая корреляция, наблюдаемая в режиме кластерно-конструктивный анализ). Это означает, что в системе сформировано несколько практически одинаковых образов с разными наименованиями. Для исследователя это само по себе является очень ценной информацией. Однако если исходить только из потребности разложения распознаваемого объекта в ряд по векторам классов (чтобы определить суперпозицией каких образов он является, т.е. "разложить его на компоненты"), то наличие сильно коррелирующих друг с другом векторов представляется неоправданным, так как просто увеличивает размерности данных, внося в них мало нового по существу. Поэтому возникает задача исключения избыточности системы классов распознавания, т.е. выбора из всей системы классов распознавания такого минимального их набора, в котором профили классов минимально коррелируют друг с другом, т.е. ортогональны в фазовом пространстве признаков. Это условие в теории рядов называется "ортонормируемостью" системы базовых функций, а в факторном анализе связано с идеей выделения "главных компонент".

В предлагаемой математической модели реализованы два варианта выхода из данной ситуации:

  • 1) исключение неформирующихся, расплывчатых классов;
  • 2) объединение почти идентичных по содержанию (дублирующих друг друга) классов.

Однако выбрать нужный вариант и реализовать его, используя соответствующие режимы, пользователь технологии АСК-анализа должен сам. Вся необходимая и достаточная информация для принятия соответствующих решений предоставляется пользователю инструментария АСК-анализа.

Если считать, что функции образов составляют формально-логическую систему, к которой применима теорема Геделя, то можно сформулировать эту теорему для данного случая следующим образом: "Для любой системы базисных функций в принципе всегда может существовать по крайней мере одна такая функция, что она не может быть разложена в ряд по данной системе базисных функций, т.е. функция, которая является ортонормированной ко всей системе базисных функций в целом". Поэтому для адекватного отражения подобных функций в модели необходимо повышение размерности семантического информационного пространства, т.е. увеличение размерности справочников классов и признаков.

Очевидно, не взаимосвязанными друг с другом могут быть только четко оформленные, детерминистские образы, т.е. образы с высокой степенью редукции ("степень сформированности конструкта"). Поэтому в процессе выявления взаимно-ортогональных базисных образов в первую очередь из модели будут исключены аморфные "расплывчатые" образы, которые связаны практически со всеми остальными образами.

В некоторых случаях результат такого процесса представляет интерес, и это делает оправданным его реализацию. Однако можно предположить, что наличие расплывчатых образов в системе является оправданным, так как в этом случае система образов не будет формальной и подчиняющейся теореме Геделя. Следовательно, система распознавания будет более полна в том смысле, что увеличится вероятность идентификации любого объекта, предъявленного ей на распознавание. Конечно, уровень сходства с аморфным образом не может быть столь высоким, как с четко оформленным, в связи с чем в этом случае более уместно применять термины "ассоциация" или нечеткая, расплывчатая идентификация, чем "однозначная идентификация".

Итак, можно сделать следующий вывод: допустимость в математической модели СК-анализа не только четко оформленных (детерминистских) образов, но и аморфных, нечетких, расплывчатых, рыхлых образов является важным достоинством данной модели. Это обусловлено тем, что данная модель обеспечивает корректные результаты анализа, идентификации и прогнозирования даже в тех случаях, когда модели идентификации и информационно-поисковые системы детерминистского типа традиционных АСУ практически неработоспособны. В этих условиях данная модель СК-анализа работает как система ассоциативной (нечеткой) идентификации.

Таким образом, в предложенной семантической информационной модели при идентификации и прогнозировании, по сути, осуществляется разложение векторов идентифицируемых объектов по векторам классов распознавания, т.е. выполняется "объектный анализ" (по аналогии с спектральным, гармоническим или Фурье-анализом), что позволяет рассматривать идентифицируемые объекты как суперпозицию обобщенных образов классов различного типа с различными амплитудами (25). При этом вектора обобщенных образов классов, с математической точки зрения, представляют собой произвольные функции и не обязательно образуют полную и не избыточную (ортонормированную) систему функций.

Для любого объекта всегда существует такая система базисных функций, что вектор объекта может быть представлен в форме линейной суперпозиции (суммы) этих базисных функций с различными амплитудами. Это утверждение, по-видимому, является одним из следствий фундаментальной теоремы А.Н. Колмогорова, доказанной им в 1957 г.

Теорема Колмогорова. Любая непрерывная функция от n переменных F(x1, x2,..., xn) может быть представлена в виде:

где gj и hij - непрерывные функции, причем hij не зависят от функции F.

Эта теорема означает, что для реализации функций многих переменных достаточно операций суммирования и композиции функций одной переменной. Удивительно, что в этом представлении лишь функции gj зависят от представляемой функции F, а функции hij универсальны. Это означает, что одну и ту же функцию многих переменных F можно разложить в ряд по различным системам базисных функций hij. Необходимо отметить, что теорема Колмогорова является обобщением теоремы В.И. Арнольда (1957), которая дает решение 13-й проблемы Гильберта.

К сожалению, определение вида функций hij и gj для данной функции F представляет собой математическую проблему, для которой пока не найдено общего строгого решения.

В работе [7] предлагается рассматривать приведенную семантическую информационную модель как один из вариантов решения этой проблемы. В этом контексте функция F интерпретируется как образ идентифицируемого объекта, функция hij - образ j-го класса, а функция gj - мера сходства образа объекта с образом класса.

 
Если Вы заметили ошибку в тексте выделите слово и нажмите Shift + Enter
< Предыдущая   СОДЕРЖАНИЕ   Следующая >
 

Предметы
Агропромышленность
Банковское дело
БЖД
Бухучет и аудит
География
Документоведение
Естествознание
Журналистика
Информатика
История
Культурология
Литература
Логика
Логистика
Маркетинг
Математика, химия, физика
Медицина
Менеджмент
Недвижимость
Педагогика
Политология
Право
Психология
Религиоведение
Социология
Статистика
Страховое дело
Техника
Товароведение
Туризм
Философия
Финансы
Экология
Экономика
Этика и эстетика
Прочее