Урок "Алфавитный подход к определению количества текстовой информации".  

 

          Информация в компьютере представлена в двоичном коде, алфавит которого состоит из двух цифр (0 и 1). Т.о. все виды информации (слова, числа, рисунки, звуки,  программы) в компьютере кодируются на машинном языке, в виде логических последовательностей нулей и единиц.

В компьютере для представления информации использу­ется двоичное кодирование, так как удалось создать надежно работающие технические устройства, которые могут со стопроцентной надежностью сохранять и распознавать не более двух различных состояний (цифр): 0 и 1. 

Цифры двоичного кода можно рассматривать как два рав­новероятных состояния (события). Значения 0 и 1 представляются физическими состояниями «намагничено — не намагничено», «есть заряд — нет заряда» и т. п. С помощью языка двоичных чисел могут быть закодированы символы любого алфавита, а значит, и любая информация, записанная на любом языке, основанном на знаковом представлении. 

 

      По этой причине в вычислительной технике для двоичных знаков 0 и 1 принят специальный термин - бит.

   Бит —  bit  (от английского  binary digit — двоичный знак).

   Каждая цифра машинного двоичного кода несет количество информации, равное одному биту.

 

 Важно, что каждая цифра машинного двоичного кода не­сет информацию в 1 бит. Таким образом, две цифры несут информацию в 2 бита, три цифры — в 3 бита и так далее. Количество информации в битах равно количеству цифр двоичного машинного кода. 

  

     Кодирование информации в ПК заключается в том, что каждому символу ставится в соответствие уникальный десятичный код от 0 до 255 или соответствующий ему двоичный код от 00000000 до 11111111. Таким образом, человек различает символы по их начертаниям, а компьютер — по их кодам.

 Важно, что присвоение символу конкретного кода — это вопрос соглашения, которое фиксируется в кодовой таблице.

Средством кодирования служит таблица соответствия знаковых систем, которая устанавливает взаимно однозначное соответствие между знаками или группами знаков двух различных знаковых систем.  

Например, буквы русского и латинского алфавитов и цифры кодируются восемью двоичными знаками 0 и 1: 

Знак

Код

Знак

Код

Знак

Код

А

11100001

A

01000001

0

00110000

Б

11100010

B

01000010

1

00110001

В

11110011

C

01000011

2

00110010

 Коды с 0 по 32 соответствуют не символам, а операциям (перевод строки, ввод пробела и так далее).

Коды с 33 по 127 являются интернациональными и соответствуют символам латинского алфавита, цифрам, знакам арифметических операций и знакам препинания.

Коды с 128 по 255 являются национальными, то есть в на­циональных кодировках одному и тому же коду соответствуют различные символы.

К сожалению, в настоящее время существуют пять различных кодовых таблиц для русских букв (КОИ8, СР1251, СР866, Мае, 180), поэтому тексты, созданные в одной кодировке, не будут правильно отображаться в другой. 

Каждая кодировка задается своей собственной кодовой таблицей. Одному и тому же двоичному коду в различных кодировках поставлены в соответствие различные символы. К счастью, в большинстве случаев пользователь не должен заботиться о перекодировках текстовых документов, так как это делают специальные программы-конверторы, встроенные в приложения.

 

    Традиционно для кодирования одного символа используется количество информации, равное 1 байту, т.е.

1 символ = 1 байт = 8 битов

При вводе в компьютер текстовой информации происходит ее двоичное кодирование, изображение символа преоб­разуется в его двоичный код. Пользователь нажимает на клавиатуре клавишу с символом, и в компьютер поступает определенная последовательность из восьми электрических импульсов (двоичный код символа). Код символа хранится в оперативной памяти компьютера, где занимает один байт.

Например, слово «МАМА» кодируется 32-разрядным двоичным числом:

МАМА       11101101 11100001  11101101  11100001 

Если рассматривать символы как возможные события, то можно вычислить, какое количество различных символов можно закодировать:

N = 2i = 28 = 256  - количество символов, достаточное для представления текстовой информации, включая прописные и строчные буквы русского и латинского алфавита, цифры, знаки, графические символы и пр.

 

Пример 1. Считая, что каждый символ кодируется одним байтом, оцените информационный объем высказывания  Сенеки:   

Век живи – век учись тому, как следует жить.

Решение: Считаем количество символов в сообщении с учетом пробелов и знаков препинания. Получаем  44 символа.  Т.к. один символ кодируется 1 байтом, то всё сообщение занимает в памяти ПК  44 байта.

 

В настоящее время широкое распространение получил новый международный стандарт Unicode, который отводит на каждый символ не один байт, а два, поэтому с его помощью можно закодировать не 256 символов, а N = 2i = 216 = 65536 различных символов. Эту кодировку поддерживают последние версии платформы Microsoft Windows&Office (начиная с 1997 года).

 

Пример 2.    Сколько места в памяти надо выделить для хранения высказывания Вольтера в UNICODE:

Работа избавляет нас от трех великих зол: скуки, порока, нужды.

Решение: Считаем все символы, включая знаки препинания и пробелы - 63 символа.

                   В кодировке UNICODE   1 символ занимает 2 байта.

Ответ: 126 байт или 1008 бит

 

Единицы количества информации

Измерения в байтах

Десятичная приставка

Двоичная приставка

Название

Символ

Степень

Название

Символ

Степень

 

МЭК

ГОСТ

 

байт

B

100

байт

B

байт

20 = 8 бит

килобайт

kB

103

кибибайт

KiB

Кбайт

210 = 1024 байта

мегабайт

MB

106

мебибайт

MiB

Мбайт

220 = 1024 Кбайта

гигабайт

GB

109

гибибайт

GiB

Гбайт

230 = 1024 Мбайта

терабайт

TB

1012

тебибайт

TiB

Тбайт

240 = 1024 Гбайта

петабайт

PB

1015

пебибайт

PiB

Пбайт

250

эксабайт

EB

1018

эксбибайт

EiB

Эбайт

260

зеттабайт

ZB

1021

зебибайт

ZiB

Збайт

270

йоттабайт

YB

1024

йобибайт

YiB

Йбайт

280

 

Пример 3. Книга, подготовленная с помощью компьютера, содержит 150 страниц. На каждой странице – 40 строк, в каждой строке – 60 символов (включая пробелы между словами). Каков объем информации в книге?

Решение: Мощность компьютерного алфавита равна 256, поэтому один символ несет 1 байт информации.

Значит, страница книги содержит    40 ´ 60 = 2400 байт информации.

[кол-во символов в строке] ´ [кол-во строк] = [информационный объем страницы]

Объем  всей информации в книге (в разных единицах):

[информационный объем страницы] ´ [кол-во страниц] = [информационный объем книги]

2400 ´ 150 = 360 000 байт / 1024 = 351,5625 Кбайт / 1024 = 0,34Мбайт

 

  

Пример 3. Два текста содержат одинаковое количество символов. Первый текст составлен в алфавите мощностью 16 символов. Второй текст в алфавите мощностью 256 символов. Во сколько раз количество информации во втором тексте больше, чем в первом?

Решение: Если первый текст составлен в алфавите мощностью (К) 16 символов, то количество информации, которое несет 1 символ (1) в этом тексте, можно определить из соотношения: N = 2i, таким образом, из 16 = 2i получим 1 = 4 бита. Мощность второго алфавита - 256 символов, из 256 = 2i получим 1 = 8 бит. Т.к. оба текста содержат одинаковое количество символов, количество информации во втором тексте больше, чем в первом, в 2 раза.

 

Это много или мало?

Страница книги

2 000 символов

2 Кбайт

Учебник по информатике

250 стр. х 2 000 символов =500 000

500 Кбайт = 0,5Мбайт

Газета

 

150 Кбайт

БСЭ

 

120 Мбайт

Черно-белый телевизионный кадр

 

300 Кбайт

Цветной кадр из 3 цветов

 

1 Мбайт

1,5 часовой цветной художественный фильм

 

4 Гбайт

 

ВЫВОД: Сравнивая объемы русского и немецкого, видим, что на немецком языке информации меньше, чем на русском, при неизменном содержании. Следовательно, при алфавитном подходе к измерению информации ее количество не зависит от содержания, а зависит от мощности алфавита и количества символов в тексте.

            С точки зрения алфавитного подхода, в толстой книге информации больше, чем в тонкой. При этом содержание книги не учитывается.

 

Домашнее задание решить задачи:

1)  Определить информационный объем книги из 130 страниц (на одной странице 50 строк по 40 символов в строке).

2) Сколько страниц текста можно уместить в 100 Мбайтах?

3) Найти объем информации, содержащейся в русском тексте из 3 000 символов. Переводчик перевел текст на немецкий язык, причем в тексте осталось 3 000 символов. Найти количество информации в тексте.