Меню
Главная
Авторизация/Регистрация
 
Главная arrow Информатика arrow Автоматизированный системно-когнитивный анализ и его применение для управления социально-экономическими системами в АПК

Формирование матрицы условных и безусловных вероятностей (относительных частот)

Классы можно сравнивать по наблюдаемым частотам признаков только в том случае, если количество объектов по всем классам одинаково, как и суммарное количество признаков по классам. Если они отличаются, то корректно сравнивать классы можно только по условным и безусловным вероятностям наблюдения признаков, посчитанных на основе матрицы частот в соответствии с выражениями (14) и (15), в результате чего получается матрица условных и безусловных вероятностей (процентных распределений).

Nj представляет собой "суммарное количество признаков у всех объектов, использованных для формирования обобщенного образа j-го класса". В результате получаем семантическую информационную модель (СИМ).

Эквивалентность выражений (11) и (12) устанавливается, если подставить в них выражения вероятности Pij, Pj и Pi через частоты наблюдения признаков по классам из (14-16). В обоих случаях из выражений (11) и (12) получается одно и то же выражение:

(17)

а из (13) выражение (18), с которым мы и будем работать далее.

(18)

В этом случае к каждому классу относится один объект, имеющий единственный признак. Откуда получаем для всех i и j (19):

(19)

Таким образом, обобщенная формула А.Харкевича (18) с учетом (19) в этом случае приобретает вид:

(20)

откуда:

(21)

или, учитывая выражение для коэффициента эмерджентности Хартли (8):

(22)

Подставив коэффициент эмерджентности Харкевича (21) в выражение (18), получим:

или окончательно:

(23)

Отметим, что первая задача получения системного обобщения формул Хартли и Харкевича и вторая задача получения такого обобщения формулы Харкевича, которая удовлетворяет принципу соответствия с формулой Хартли, - это две разные задачи. Первая задача является более общей и при ее решении, которое приведено выше, автоматически решается и вторая задача, которая является, таким образом, частным случаем первой задачи.

Однако представляет самостоятельный интерес и частный случай, в результате которого получается формула Харкевича, удовлетворяющая в равновероятном детерминистском случае принципу соответствия с классической формулой Хартли (1), а не с ее системным обобщением (2) и (3). Ясно, что эта формула получается из (23) при = 1.

(24)

Из выражений (21) и (22) видно, что в этом частном случае, т.е. когда система эквивалентна множеству (M=1), коэффициент эмерджентности Харкевича приобретает вид:

(25)

На практике для численных расчетов удобнее пользоваться не выражениями (23) или (24), а формулой (26), которая получается непосредственно из (18) после подстановки в него выражения (25):

(26)

В классическом анализе Шеннона идет речь лишь о передаче символов по одному информационному каналу от одного источника к одному приемнику. При этом исследуется прежде всего передача самого сообщения.

В данной работе решается другая задача - идентифицировать или распознать информационный источник по сообщению от него. Поэтому метод Шеннона был обобщен путем учета в математической модели возможности существования многих источников информации, от которых к приемнику по зашумленному каналу связи приходят не отдельные символы-признаки, а сообщения, состоящие из последовательностей символов (признаков) любой длины.

Следовательно, ставится задача идентификации информационного источника по сообщению от него, полученному приемником по зашумленному каналу. Метод, являющийся обобщением метода Шеннона, позволяет применить классическую теорию информации для построения моделей систем распознавания образов и принятия решений, ориентированных на применение для синтеза адаптивных АСУ сложными объектами.

Для решения поставленной задачи необходимо вычислять не средние информационные характеристики, как в теории Шеннона, а количество информации, содержащееся в конкретном i-м признаке (символе) о том, что он пришел от данного j-го источника информации. Это позволит определить и суммарное количество информации в сообщении о каждом информационном источнике, что дает интегральный критерий для идентификации или прогнозирования состояния объекта.

Логично предположить, что среднее количество информации, содержащейся в системе признаков о системе классов

(27)

является ничем иным, как усреднением (с учетом условной вероятности наблюдения) "индивидуальных количеств информации", которые содержатся в конкретных признаках о принадлежности обладающих ими объектов к конкретным классам (источникам), т.е.:

(28)

Это выражение определяет так называемую плотность информации, т.е. количество информации, которое содержится в одном отдельно взятом факте наблюдения i-го символа (признака) на приемнике о том, что этот символ (признак) послан j-м источником.

Если в сообщении содержится M символов, то суммарное количество информации о принадлежности данного сообщения j-му информационному источнику (классу) составляет:

(29)

Необходимо отметить, что применение сложения в выражении (29) вполне корректно и оправданно, так как информация с самого начала вводилась как аддитивная величина, для которой операция сложения является корректной.

Преобразуем выражение (29) к виду, более удобному для применения на практике для численных расчетов. Для этого традиционным для теории информации Шеннона способом выразим вероятности встреч признаков через частоты их наблюдения:

(30)

Подставив (30) в (29), получим:

(31)

Если ранжировать классы в порядке убывания суммарного количества информации о принадлежности к ним, содержащейся в данном сообщении (т.е. описании объекта), и выбирать первый из них, т.е. тот, о котором в сообщении содержится наибольшее количество информации, то мы получим обоснованную статистическую процедуру, основанную на классической теории информации, оптимальность которой доказывается в фундаментальной лемме Неймана-Пирсона [1].

Подставим значения вероятностей из (30) в (28) и получим выражение для плотности информации Шеннона, выраженное не через вероятности, а через частоты наблюдения символов, которые рассматриваются как признаки объектов, т.е. количество информации, содержащееся в отдельном i-м признаке о том, что другом конце канала связи находится j-й объект:

(32)

Сравнивая выражения (23) и (32) видим, что в системном обобщении формулы Харкевича первое слагаемое практически тождественно выражению Шеннона для плотности информации, а второе слагаемое представляет собой плотность информации по Хартли.

Различия состоят в том, что в выражении (23) это слагаемое возведено в степень, имеющую смысл коэффициента эмерджентности Харкевича. Поэтому вполне оправданным называть это слагаемое не коэффициентом эмерджентности Харкевича, а коэффициентом эмерджентности Шеннона-Харкевича. Необходимо отметить также, что значения частот в этих формулах связаны с вероятностями несколько различным образом (выражения 14-16 и 30).

Из этого также следует, что выражение (23) представляет собой нелинейную суперпозицию выражений для плотности информации Шеннона и Хартли, и, таким образом, является обобщающим выражением для плотности информации, которое при различных условиях асимптотически переходит в классические выражения Хартли и Харкевича, а от выражения Шеннона отличается лишь константой, т.е. вторым слагаемым, характеризующим мощность множества состояний объекта в модели.

Это позволяет обоснованно высказать гипотезу о том, что системная теория информации (СТИ), базирующаяся на выражении (23) для плотности информации, является более общей, чем теории Хартли, Шеннона и Харкевича и асимптотически связана с ними через принцип соответствия (рис. 3).

Рис. 3. Генезис системной (эмерджентной) теории информации

 
Если Вы заметили ошибку в тексте выделите слово и нажмите Shift + Enter
< Предыдущая   СОДЕРЖАНИЕ   Следующая >
 
Предметы
Агропромышленность
Банковское дело
БЖД
Бухучет и аудит
География
Документоведение
Естествознание
Журналистика
Информатика
История
Культурология
Литература
Логика
Логистика
Маркетинг
Математика, химия, физика
Медицина
Менеджмент
Недвижимость
Педагогика
Политология
Право
Психология
Религиоведение
Социология
Статистика
Страховое дело
Техника
Товароведение
Туризм
Философия
Финансы
Экология
Экономика
Этика и эстетика
Прочее