Измерение информации
Разработаны различные способы оценки количества информации. Чаще всего используется способ оценки, предложенный в 1948 г. основоположником теории информации Клодом Шенноном. Как было отмечено выше, информация – это снятая неопределенность. Степень неопределенности принято характеризовать с помощью понятия «вероятность».
Вероятность – величина, которая может принимать значения в диапазоне от 0 до 1. Она есть мера возможности наступления какого-либо события, которое может иметь место в одних случаях и не иметь места в других. Если событие никогда не может произойти, его вероятность считается равной 0. Если событие происходит всегда, его вероятность равна 1. Чем больше вероятность события, тем больше уверенность в том, что оно произойдет, и тем меньше информации содержит сообщение об этом событии. Если вероятность события мала, то сообщение о том, что оно случилось, очень информативно.
Количество информации I, характеризующей состояние, в котором пребывает объект, можно определить, используя формулу Шеннона
I = –(p1log2p1 + p2log2p2 + ... + pnlog2pn),
где n – число возможных состояний; p1, ..., pn – вероятности отдельных состояний; log2 – функция логарифма при основании 2. Знак минус перед суммой позволяет получить положительное значение для I, поскольку значение log2 pi всегда неположительно.
Единица информации называется битом. Термин «бит» предложен как аббревиатура от английского словосочетания «Binary digiT», которое переводится как «двоичная цифра».
1 бит информации – количество информации, посредством которого выделяется одно из двух равновероятных состояний объекта.
Формула Шеннона может быть использована и для оценки количества информации в непрерывных величинах.
При оценке количества дискретной информации часто используется также формула Хартли I = log2(n), где n – число возможных равновероятных состояний; log2 – функция логарифма при основании 2.
Формула Хартли применяется в случае, когда вероятности состояний, в которых может находиться объект, одинаковые.
В общем случае справедливо утверждение, что количество информации в сообщении зависит от числа разнообразий, присущих источнику информации и их вероятностей.
В качестве примера определим количество информации на один знак при двоичном кодировании (т.е. при использовании алфавита, состоящего из двух знаков 0 и 1). Если считать, что со знаками 0 и 1 в двоичном алфавите связаны одинаковые вероятности их появления, то
I = log2 2 = 1 бит.
Таким образом, количество информации (в битах), заключенное в двоичном слове, равно числу двоичных знаков в нем.
В вычислительной технике при определении количества информации чаще используется объемный подход.
Создатели компьютеров отдают предпочтение именно двоичной системе счисления потому, что в техническом устройстве наиболее просто реализовать два противоположных физических состояния (некоторый физический элемент, имеющий два различных состояния: намагниченность в двух противоположных направлениях; прибор, пропускающий или нет электрический ток; конденсатор, заряженный или незаряженный и т.п.). В компьютере бит является наименьшей возможной единицей информации. Объем информации, записанной двоичными знаками в памяти компьютера или на внешнем носителе информации подсчитывается просто по количеству требуемых для такой записи двоичных символов. При этом, в частности, невозможно нецелое число битов (в отличие от вероятностного подхода).
Итак, если у нас есть один бит, то с его помощью мы можем закодировать один из двух символов – либо 0, либо 1.
Если же есть 2 бита, то из них можно составить один из четырех вариантов кодов: 00, 01, 10, 11 .
Если есть 3 бита – один из восьми: 000, 001, 010, 100, 110, 101, 011, 111. Закономерность очевидна: 1 бит – 2 варианта, 2 бита – 4 варианта, 3 бита – 8 вариантов, 4 бита – 16 вариантов.
Количество возможных кодов зависит от количества используемых бит,
N=2m где m – количество бит, N – количество возможных вариантов.
В обычной жизни нам достаточно 150 – 160 стандартных символов (больших и маленьких русских и латинских букв, цифр, знаков препинания, арифметических действий и т.п.). Если каждому из них будет соответствовать свой код из нулей и единиц, то 7 бит для этого будет недостаточно (7 бит позволят закодировать только 128 различных символов), поэтому используют 8 бит.
Для кодирования одного, привычного человеку, символа в ЭВМ используется 8 бит, что позволяет закодировать 256 различных символов.
Стандартный набор из 256 символов называется ASCII (означает «Американский Стандартный Код для Обмена Информацией» – англ. American Standart Code for Information Interchange). Он включает в себя большие и маленькие русские и латинские буквы, цифры, знаки препинания и арифметические действия и т.п.
Каждому символу ASCII соответствует 8-битовый двоичный код.
Таблица 1. Коды управляющих символов (0–31)
Код | Отображаемый символ | Код | Отображаемый символ | Код | Отображаемый символ | Код | Отображаемый символ |
0 |
| | ◘ | | ► | | ↑ |
| ☺ | | ○ | | ◄ | | ↓ |
| ☻ | | ◙ | | ↕ | | → |
| ♥ | | ♂ | | ‼ | | ← |
| ♦ | | ♀ | | ¶ | | ∟ |
| ♣ | | ♪ | | § | | ↔ |
| ♠ | | ♫ | | ▬ | | ▲ |
| • | | ☼ | | ↨ | | ▼ |
Таблица 2. Символы с кодами 32–127
Код | Символ | Код | Символ | Код | Символ | Код | Символ | Код | Символ | Код | Символ |
| пробел | | 0 | | @ | | P | | ` | | p |
| ! | | 1 | | A | | Q | | A | | q |
| “ | | 2 | | B | | R | | b | | r |
| # | | 3 | | C | | S | | c | | s |
| $ | | 4 | | D | | T | | d | | t |
| % | | 5 | | E | | U | | e | | u |
| & | | 6 | | F | | V | | f | | v |
| ' | | 7 | | G | | W | | g | | w |
| ( | | 8 | | H | | X | | H | | x |
| ) | | 9 | | I | | Y | | I | | y |
| * | | : | | J | | Z | | J | | z |
| + | | ; | | K | | [ | | K | | { |
| , | | < | | L | | \ | | L | | | |
| - | | = | | M | | ] | | m | | } |
| . | | > | | N | | ^ | | n | | ~ |
| / | | ? | | O | | _ | | o | | del |
Таблица 3. Символы с кодами 128–255 (Кодовая таблица 866 – MS-DOS)
Код | Символ | Код | Символ | Код | Символ | Код | Символ | Код | Символ | Код | Символ | Код | Символ | Код | Символ |
128 | А | 144 | Р | 160 | а | 176 | ░ | 192 | └ | 208 | ╨ | 224 | р | 240 | Ё |
129 | Б | 145 | С | 161 | б | 177 | ▒ | 193 | ┴ | 209 | ╤ | 225 | с | 241 | ё |
130 | В | 146 | Т | 162 | в | 178 | ▓ | 194 | ┬ | 210 | ╥ | 226 | т | 242 | Є |
131 | Г | 147 | У | 163 | г | 179 | │ | 195 | ├ | 211 | ╙ | 227 | у | 243 | є |
132 | Д | 148 | Ф | 164 | д | 180 | ┤ | 196 | ─ | 212 | ╘ | 228 | ф | 244 | Ї |
133 | Е | 149 | Х | 165 | е | 181 | ╡ | 197 | ┼ | 213 | ╒ | 229 | х | 245 | ї |
134 | Ж | 150 | Ц | 166 | ж | 182 | ╢ | 198 | ╞ | 214 | ╓ | 230 | ц | 246 | Ў |
135 | З | 151 | Ч | 167 | з | 183 | ╖ | 199 | ╟ | 215 | ╫ | 231 | ч | 247 | ў |
136 | И | 152 | Ш | 168 | и | 184 | ╕ | 200 | ╚ | 216 | ╪ | 232 | ш | 248 | ° |
137 | Й | 153 | Щ | 169 | й | 185 | ╣ | 201 | ╔ | 217 | ┘ | 233 | щ | 249 | · |
138 | К | 154 | Ъ | 170 | к | 186 | ║ | 202 | ╩ | 218 | ┌ | 234 | ъ | 250 | · |
139 | Л | 155 | Ы | 171 | л | 187 | ╗ | 203 | ╦ | 219 | █ | 235 | ы | 251 | √ |
140 | М | 156 | Ь | 172 | м | 188 | ╝ | 204 | ╠ | 220 | ▄ | 236 | ь | 252 | № |
141 | Н | 157 | Э | 173 | н | 189 | ╜ | 205 | ═ | 221 | ▌ | 237 | э | 253 | ¤ |
142 | О | 158 | Ю | 174 | о | 190 | ╛ | 206 | ╬ | 222 | ▐ | 238 | ю | 254 | ■ |
143 | П | 159 | Я | 175 | п | 191 | ┐ | 207 | ╧ | 223 | ▀ | 239 | я | 255 |
|
Коды от 128 до 255 (таблица 3) представляют собой расширение таблицы ASCII. Эти коды используются для кодирования символов национальных алфавитов, а также символов псевдографики, которые можно использовать, например, для оформления в тексте различных рамок и текстовых таблиц.
Набор символов Windows, чтобы представить каждый знак, использует 8 битов; поэтому, максимальное число символов, которое может быть выражено, при помощи использования 8 битов - 256 (28). Это обычно достаточно для западных языков, включая диакритические знаки, используемые французским, немецким, испанским и другими языками. Однако восточные языки используют тысячи отдельных символов, которые не могут быть закодированы при помощи использования однобайтовой схемы кодирования. С быстрым увеличением компьютерной техники, двухбайтовые схемы кодирования были разработаны так, чтобы символы могли быть представлены 8-, 16-, 24- или 32 битовыми последовательностями. Это требует сложных передающих алгоритмов; даже в этом случае, когда используются разные кодовые наборы, можно получить полностью различные результаты на двух разных компьютерах.
Чтобы как-то решить проблему многочисленных схем кодирования, был разработан стандарт для представления данных - Unicode. 16-битная схема кодирования символов - Unicode может представлять 65,536 (216) знаков, которых достаточно для того, чтобы включить сегодня все языки в компьютерную технику, а также знаки препинания, математические символы и участок памяти для будущего расширения их состава. Система Unicode устанавливает уникальный код для каждого символа, гарантируя этим, что символьная трансляция будет всегда точной.
Для удобства использования введены и более крупные, чем бит, единицы количества информации.
8 бит = 23бит | 1 байт |
1024 байта = 210байт=213бит | 1 кбайт (килобайт) |
1024 кбайта = 220байт=223бит | 1 Мбайт (мегабайт) |
1024 Мбайт = 230байт=233бит | 1 Гбайт (гигабайт) |
1024 Гбайт = 240 байт=243бит | 1 Тбайт (терабайт) |
1024 Тбайт = 250 байт=253бит | 1 Пбайт (пентабайт) |
Yandex.RTB R-A-252273-3
- Содержание
- Информация и информатика
- Понятие информации
- Свойства информации
- Измерение информации
- Информатика как наука
- Основные направления информатики
- Системы счисления
- Непозиционные системы счисления
- Позиционные системы счисления
- Перевод чисел из одной системы счисления в другую.
- Двоичная арифметика.
- Логические основы вычислительной техники Формы мышления
- Алгебра высказываний.
- Логическое умножение (конъюнкция)
- Логическое сложение (дизъюнкция)
- Логическое отрицание (инверсия)
- Технические и программные средства реализации информационных процессов.
- Краткая история развития вычислительной техники
- Основные типы компьютеров. Конфигурации персональных компьютеров (пк)
- Устройства хранения информации
- Устройства обработки информации и управляющие устройства
- Устройства ввода и вывода
- Модели решения функциональных и вычислительных задач
- Основные понятия
- Классификация видов моделирования
- Программное обеспечение. Основные понятия программирования
- Основные понятия и определения
- Способы представления алгоритма
- Базовые структуры программирования
- Языки программирования
- Операционные системы. Классификация и краткий обзор
- Программное обеспечение деятельности офиса
- Защита информации
- Локальные и глобальные сети эвм
- Задания для контрольной работы