Алфавитный подход к измерению информации

 

Алфавит — множество используемых символов в языке. Обычно под алфавитом понимают не только буквы, но и цифры, знаки препинания и пробел.

Мощность алфавита (N) — количество символов,  используе- мых в алфавите. Например,  мощность  алфавита из русских  букв равна 33.
Предположим, что каждый символ  может появляться с одина- ковой вероятностью.
Тогда каждый такой символ  несет i бит информации, которые можно определить  из уравнения: .
Чтобы  найти количество информации (V) во всем тексте, нуж- но посчитать число символов в нем (k) и умножить на i: 

При алфавитном подходе к измерению информации информационный объем текста зависит только от размера текста и от мощности алфавита, а не от содержания. Поэтому нельзя сравнивать информационные объемы текстов, написанных на разных языках, по размеру текста.

 


Лекция добавлена 25.02.2014 в 22:49:20