yandex rtb 1
ГоловнаЗворотній зв'язок
yande share
Главная->Математика і інформатика->Содержание->1.2  Базовые понятия теории информации

Теория информации

1.2  Базовые понятия теории информации

 

Информация – нематериальная сущность, с помощью которой с любой точностью можно описывать реальные (материальные), виртуальные (возможные) и понятийные сущности. Информация противоположна неопределённости.

 

Кодирование – преобразование информации на упорядоченный набор символов, элементов, знаков. При кодировании каждому сообщению из некоторого множества (ансамбля) сообщений ставится в соответствие  кодовая комбинация – набор символов (элементов, знаков).

Множество сообщений называется алфавитом сообщений, или первичным алфавитом, а множество символов (элементов, знаков) называется алфавитом источника, или вторичным алфавитом. Построенное в соответсвии с определенной схемой кодирования множество кодовых комбинаций называется кодом. В зависимости от алфавита, используемого для построения кодовых комбинаций, различают двоичные (бинарные) коды, алфавит которых состоит из двух символов: 0 и 1, и недвоичные (многопозиционные, q-коды), алфавит которых состоит из большего количества символов.

По своему функциональному назначению коды делятся на безызбыточные (некорректирующие, первичные, простые) и избыточные (корректирующие, помехоустойчивые). Первые предназначены для экономного кодирования информации – сжатия. Вторые – для обеспечения возможности обнаружения и/или исправления ошибок, возникающих при передаче даных по каналу связи с помехами.

Как безызбыточные, так и избыточные коды могут быть равномерные и неравномерные – с постоянным и переменным количеством разрядов. 

 

Канал связи - это среда передачи информации, которая характеризуется максимально возможной для неё скоростью передачи данных – ёмкостью канала связи.

Ёмкость канала связи без шума можно приблизительно вычислить, зная максимальную частоту волновых процессов, допустимую в этом канале. Считается, что скорость передачи данных может быть не меньше этой частоты.

Типичные каналы связи: телеграфный, телефонный, оптоволоконный, цифровой телефонный. Наиболее широко используются телефонные линии связи, для которых достигнута скорость передачи данных больше 50 кбод.

 

Шум – это помехи в канале связи.

 

Обобщённая схема системы передачи информации показана на рис. 1.2.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Рисунок 1.2

 

 

1.3  Способы измерения информации

 

Предположим, что состояние некоторого объекта или системы заранее известно. Тогда сообщение об этом состоянии не несет никакой информации для ее получателя. Если же состояние объекта изменилось и источником передано какое-то другое, заранее неизвестное сообщение о состоянии наблюдаемого объекта, то это сообщение несет новые сведения, которые добавят знания об объекте получателю информации. Тогда можно говорить, что такое сообщение содержит некоторое количество информации.

Таким образом, на качественном интуитивном уровне информацию можно определить как новое, заранее неизвестное знание о состоянии некоторого объекта или системы, а количество информации  - количество этого знания. Понятно, что если новое знание увеличивает общий объем знаний о состоянии объекта, то количество информации накапливается и имеет аддитивный характер. До выбора сообщения источником для получателя информации имеет место некоторая неопределенность относительно состояния объекта. После выбора сообщения источником образуется некоторое количество информации, которое в какой-то степени уменьшает эту неопределенность.

В основе теории информации лежит предложенный Клодом Шенноном способ измерения количества информации, содержащейся в одной случайной величине относительно другой случайной величины[1]. Этот способ приводит к выражению количества информации числом и даёт возможность объективно оценить информацию, содержащуюся в сообщении. Кратко рассмотрим вероятностный подход Шеннона к определению количества информации.

Пусть дискретный источник выдаёт последовательность сообщений xi, каждое из которых выбирается из алфавита сообщений x1, x2, …, xk, где k – объём алфавита.

В каждом элементарном сообщении для его получателя содержится информация как совокупность сведений о состоянии некоторой системы. Для того чтобы абстрагироваться от конкретного содержания информации, т.е. ее смыслового значения, и получить наиболее общее определение количества информации, количественную меру информации определяют без учёта её смыслового содержания, а также ценности и полезности для получателя.

До того как связь состоялась, имеется некоторая неопределённость относительно того, какое из сообщений из числа возможных будет передано. Степень неопределённости передачи хi можно определить его априорной вероятностью pi. Количество информации будет, таким образом, некоторой функцией от pi: I(Xi)=f(pi). Определим вид этой функции.

Будем считать, что мера количества информации I(Xi) должна удовлетворять двум интуитивным свойствам:

1)   если выбор сообщения источника xi заранее предопределён (нет неопределённости), т.е. речь идет о достоверном случае, вероятность которого pi=1 (точно произойдет), то I(Xi)=f(1)=0;

2)   если источник последовательно выдаёт сообщения xi и xj и вероятность такого выбора pij – совместная вероятность событий xi и xj, то количество информации в этих двух элементарных сообщениях равно сумме количества информации в каждом из них.

Вероятность совместного выпадения событий xi и xj определяется по закону умножения вероятностей

 

pij=pi×pj/i=P×Q.

 

Тогда

 

I(Xi, Xj)=I(Xi)+I(Xj)=f(PQ)=f(P)+f(Q).

 

Отсюда следует, что функция f(pi) логарифмическая. Таким образом, количество информации должно быть связано с априорной вероятностью соотношением

 

.

 

При этом коэффициент k и основание логарифма могут быть произвольными. Для того чтобы количество информации выражалось неотрицательным числом, принято k=-1, а основание логарифма чаще всего вбирают 2. Тогда

 

.                                   (1.1)

 

Таким образом, количества информации в сообщении тем больше, чем менее оно вероятно (т.е. наиболее неожиданно).

Если источник информации выдает последовательность взаимозависимых сообщений, то получение каждого из них изменяет вероятность следующих и соответственно количество информации в них. В данном случае количество информации выражается через условную вероятность выбора источником сообщения xi при условии, что до этого были выбраны сообщения xi-1, xi-2, …, т.е

 

.                 (1.2)

 

Количество информации I(X) является случайной величиной, так как сами сообщения случайны. Распределение вероятностей I(X) определяется распределением вероятностей P(X) ансамбля сообщений источника. 

 

Сам Шеннон однажды заметил1, что смысл сообщений не имеет никакого отношения к его теории информации, которая целиком построена на положениях теории вероятности. Его способ измерения информации наводил на мысль о возможности существования способов измерения информации с учетом ее смыслового содержания - семантической информации.

Одной из таких мер информации является функция inf(S)=-log2p(S), где S – предложение, смысловое содержание которого измеряется; p(S) – вероятность истинности S. Свойства этой функции:

1)        если S1S2 истинно, то inf(S1) ≥ inf(S2);

2)        если S – истинно, то inf (S)=0;

3)        Inf (S) ≥ 0;

4)        Inf (S1, S2)= inf (S1) + inf(S2)p(S1, S2)= p(S1) +p(S2), т.е. S1, S2 независимы.

 

Пример:  S1 = “a>3”, S2=“a=7”; S2 S1, inf(S2) > inf (S1).

Значение этой функции-меры больше для предложений, исключающих большее количество возможностей.

 

                          

 

5