ТЕОРИЯ ИНФОРМАЦИИ

Категория :

Описание

ТЕОРИЯ ИНФОРМАЦИИ — раздел математики, посвященный вопросам оценки количества информации, способам ее кодирования и передачи. Т. и. часто рассматривают как часть кибернетики (см.), однако она имеет и самостоятельное значение для областей, не связанных с процессами управления (напр., биологии, медицины, психологии, искусства, обучения).

В основе Т. и. лежит определенный способ измерения количества информации, содержащейся в каких-либо данных (сообщениях). Источником данных, или сообщений, могут быть слова какого-либо языка, результаты измерений, мед. документация и т. д. Достижения в области Т. и. нашли применение при создании алгоритмов переработки информации (см. Алгоритм), различных автоматизированных систем управления (см.), информационно-поисковых систем (см.) и т. Д.

Теоретические основы Т. и. заложены в 1948 —1949 гг. амер. ученым Шенноном <К. Shannon), к-рый предложил статистическую меру количества информации и доказал ряд теорем, связанных с вопросами передачи информации. В качестве источника информации рассматривается объект, к-рый в течение определенного интервала времени (такта передачи) с нек-рой вероятностью может находиться в одном из N возможных состояний. Состояние источника информации в виде сигналов поступает по каналу связи к приемнику информации. Если все состояния источника информации равновероятны и текущее состояние не зависит от предыдущих состояний, количество (I) передаваемой за один такт информации (измеряется в двоичных единицах информации — битах) максимально и вычисляется по формуле: I = log2N.

Если источник имеет два возможных и равновероятных состояния (N — 2), за один такт передается одна единица информации — 1 бит. С ростом числа состояний растет количество передаваемой информации.

Информацию об одном из двух возможных состояний источника (N—2) можно передать с помощью одного двоичного символа (0 или 1), что соответствует передаче 1 бита информации (единица информации). Используя комбинации из двоичных символов (00, 01, 10 и 11), можно передать информацию об источнике с четырьмя возможными состояниями. В общем случае для передачи информации об источнике с 2n состояниями достаточно п двоичных символов. Логарифмическая мера информации обладает свойством аддитивности, т. е. количество информации, получаемое от двух независимых источников информации, равно сумме количеств информации, получаемых от каждого из источников.

Широко используется статистическая мера информации, основанная на том, что менее вероятные (т. е. более неожиданные) сообщения несут больше информации, чем более вероятные (менее неожиданные). Количество информации, содержащееся в сообщении о том, что источник находится в i-м состоянии, вычисляется по формуле:

Ii = log21/Pi = -log2Pi, где Pi — априорная вероятность того, что источник находится в i-м состоянии.

Так как Pi < 1, количество информации всегда положительно и тем больше, чем меньше Pi. Среднее количество информации, содержащейся в одном сообщении, находят путем усреднения всех возможных состояний с учетом их вероятностей:

Если все состояния объекта равновероятны (т. е. Pi = 1/N), то I = — log21/N = log2N.

При наличии помех в канале связи количество принятой информации всегда меньше количества переданной информации. Если было передано i-е сообщение, а принято j-e, количество принятой информации (I) равно:

где P(i/j) — вероятность того, что было передано сообщение i при условии, что принято сообщение j; Pi —безусловная вероятность того, что переданное сообщение было i-м. Среднее количество принятой информации находят усреднением по всем возможным парам принятых и переданных сообщений.

Количество передаваемой информации уменьшается, если вероятность появления данного сообщения зависит от ранее принятых сообщений. При этом вычисление количества информации производится по более сложным формулам.

К основным понятиям Т. и. относятся скорость передачи информации R (равна количеству информации, передаваемому по каналу связи в единицу времени) и пропускная способность канала С (представляет собой предельно допустимую скорость, с к-рой информация может быть передана по данному каналу). В случае, если скорость передачи R меньше пропускной способности канала С, информация может быть передана без ошибок. На практике при R, близких к С, высокая достоверность может быть достигнута лишь путем кодирования достаточно длинных последовательностей сообщений кодами с исправлением ошибок (корректирующие коды). При этом вероятность ошибки стремится к нулю при стремлении длины кодируемой последовательности к бесконечности. Помимо корректирующих кодов, для повышения помехоустойчивости используется повторение сигналов, кодирование с переспросом, специальные широкополосные сигналы и другие методы.

К Т. и. часто относят также достаточно развитую теорию передачи сообщений (теорию связи), рассматривающую вопросы построения сигналов, с помощью к-рых можно передавать большое количество информации по каналу с ограниченной полосой пропускания при заданной достоверности. Для передачи информации используются различные виды модуляции и кодирования. В процессе модуляции сообщение воздействует на один из параметров высокочастотного или импульсного сигнала, напр, амплитуду, частоту, длительность импульсов. Одна из основных проблем состоит в создании многоканальной связи, т. е. в передаче по одному каналу сообщений о состоянии многих источников. Большой вклад в развитие этого направления Т. и. внесен советскими учеными В. А. Котельниковым, А. А. Харкевичем и др.

Следует отметить, что модель источника сообщения, разработанная Шенноном, пригодна для измерения количества информации не во всех областях. Так, в процессе познания мира мы сталкиваемся с задачами, когда заранее не известны все состояния изучаемых объектов и их статистические характеристики; при обучении количество получаемой информации зависит от уровня знаний обучаемого и т. д.

Советским математиком А. Н. Колмогоровым в 1965 г. был предложен метод определения количества информации, содержащейся в объекте X относительно объекта у, основанный на понятии сложности программы получения у из x. Ю. А. Шрейдер ввел понятие «количество семантической информации», связанное с изменением состава системы понятий или их отношений в языке получателя информации. При этом следует считать, что если поступившее высказывание понятно и известно получателю, оно не несет никакой информации, т. е. количество семантической информации в сообщении равно нулю; если поступившая совокупность слов совершенно не связана со словами, имеющимися в словаре получателя, количество семантической информации также равно нулю, т. к. сообщение не будет понято получателем. Только в том случае, если можно установить ассоциативные связи принятой последовательности слов с понятиями и высказываниями, уже хранящимися в памяти получателя, количество семантической информации отличается от нуля.

Ряд работ в области Т. и. посвящен проблеме так наз. ценности информации. А. А. Харкевич предложил измерять ценность информации через приращение вероятности достижения цели. В технических и экономических системах полезность информации оценивается в ряде случаев по величине экономических потерь, возникающих при различного рода ошибках в процессе получения информации.

В биологии и медицине идеи и методы Т. и. нашли применение при исследовании процессов передачи информации в нервной системе (см. Распознавание образов) и др. Методы и достижения Т. и. находят также большое применение в психологии, социологии, педагогике и других областях человеческого знания.


Библиогр.: Голдман С. Теория информации, пер. с англ., М., 1957; Коган И. М. Прикладная теория информации, М., 1981, библиогр.; Серавин Л. Н. Теория информации с точки зрения биолога, Л., 1973; Теория информации в биологии, пер. с англ., под ред. Л. А. Блюменфельда, М., 1960; Урсул А. Д. Информация, М., 1971, библиогр.; Шеннон К. Э. Работы по теории информации и кибернетике, пер. с англ., М., 1963; Шрейдер Ю. А. Об одной модели семантической теории информации, в кн.: Пробл. кибернетики, под ред. А. А. Ляпунова, в. 13, с. 233, М., 1965.


Г А. Шастова