Кодирование текстовой информации. Кодирование информации. Кодирование информации в ПК.
Доброго времени суток уважаемый пользователь. В этой статье мы поговорим на такие темы, как: Кодирование информации, Кодирование текстовой информации, Кодирование информации в компьютере.
Кодирование информации в компьютере.
На сегодняшний день персональный компьютер может обрабатывать числовую, текстовую, графическую, звуковую и видео информацию. Вся информация в компьютере представлена в двоичном коде, то есть используется алфавит в два символа 0 и 1. Именно в двоичном коде легч всего представить информацию как электрический импульс, его отсутствие (0), а его присутствие (1).
Такой вид кодирования принято называть двоичным, а алфавит двоичного кодирования из нулей и единиц, несущий смысловую нагрузку на компьютер принято называть машинным языком.
Примечание
Каждая цифра двоичного кода, занимает место в памяти, равное 1 биту, соответственно две цифры 2 бита, три — 3 бита и т.д…
Вид информации | Двоичный код |
---|---|
Числовая | 1001001111 |
Текстовая | 1010011101 |
Графическая | 1100101011 |
Звуковая | 1010010011 |
Видео | 1110010101 |
Чтобы посчитать колличество информации, для числа например, нужно представить это число в двоичном коде и посчитать колличество нулей и единиц.
Кодирование текстовой информации.
На сегодняшний день большое колличество пользователей при помощи компьютера обрабатывает текстовую информацию, которая состоит из: букв, цифр, знаков препинания и других элементов.
Обычно для кодирования одного символа, используеться 1 байт памяти то есть 8 бит. По теории вероятностей с помощью простой формулы, которая связывает количество возможных событий (К) и количество информации (I), можно вычислить сколько не одинаковых символов можно закодировать: К = 2^I = 28 = 256.
Примечание
Для кодирования текстовой информации обычно используют алфавит мощьностью в 256 символов…
Принцип данного кодирования заключается в том, что каждому символу (букве, знаку) соответствуе свой двоичный код от 00000000 до 11111111, так-же текстовая информация может быть представлена в десятичном коде от 0 до 255.
Нужно запомнить, что на сегодняшний день для кодирования букв российского алфавитаиспользуют пять разных кодировачных таблиц (КОИ — 8, СР1251, СР866, Мас, ISO), запомните, что тексты закодированные с помощью одной таблицы не будут корректно отображаться в другой кодировке. Это можно увидить в обьединенной таблице кодировки символов.
Для одного двоичного кода в разных таблицах соответствуют разные символы:
Двоичный код | Десятичный код | КОИ8 | СР1251 | СР866 | Мас | ISO |
---|---|---|---|---|---|---|
На сегодняшний день перекодированием текстовых документов заботится не пользователь, а программы, которые встроены в текстовые редакторы и текстовые процессоры. В начале 1997 года Microsoft Office начали поддерживать новую кодировку Unicode. В Unicode можно закодировать не 256 символов а, 65536, это было достигнуто тем, что под каждый символ начали отводить 2 байта. Сегодня больше всего популярны две таблицы это Windows (СР1251), и Unicode.
Решаем задачи.
Задача №1.
Допустим у нас есть два текста которые содержат одинаковое колличество символов. Один текст записан на русском языке его алфавит (32 символа), а второй допустим на украинском его алфавит (16 символов). Чей текст несет большее количество информации?
Решение
I = К * а (информационный объем текста равен произведению числа символов на информационный вес одного символа). Т.к. оба текста имеют одинаковое число символов (К), то разница зависит от информативности одного символа алфавита (а).
2^а1 = 32, т.е. а1 = 5 бит.
2^а2 = 16, т.е. а2 = 4 бит.
I1 = К * 5 бит, I2 = К * 4 бит.
Значит, текст, записанный на русском языке в 5/4 раза несет больше информации.
Задача №2.
Объем сообщения, содержащего 2048 символов, составил 1/512 часть Мбайта. Определить мощность алфавита.
Решение
I = 1/512 * 1024 * 1024 * 8 = 16384 бит. - перевели в биты информационный объем сообщения.
а = I / К = 16384 /1024 = 16 бит - приходится на один символ алфавита.
2^16 = 65536 символов - мощность использованного алфавита.
Именно такой алфавит используется в кодировке Unicode, который стал международным стандартом для представления символьной информации в компьютере.