Глава 1 - введення в інформатику

1.5. Як вимірюється кількість інформації?

Яка кількість інформації міститься, наприклад, в тексті роману "Війна і мир", у фресках Рафаеля або в генетичному коді людини? Відповіді на ці питання наука не дає і, цілком ймовірно, дасть не скоро. А чи можливо об'єктивно виміряти кількість інформації. Найважливішим результатом теорії інформації є наступний висновок:

У певних, досить широких умовах можна знехтувати якісними особливостями інформації, висловити її кількість числом, а також порівняти кількість інформації, що міститься в різних групах даних.

В даний час набули поширення підходи до визначення поняття "кількість інформації", засновані на тому, що інформацію, що міститься в повідомленні, можна нестрого трактувати в сенсі її новизни або, інакше, зменшення невизначеності наших знань про об'єкт. Ці підходи використовують математичні поняття ймовірності і логарифма. Якщо ви ще не знайомі з цими поняттями, то можете поки пропустити цей матеріал.

Підходи до визначення кількості інформації. Формули Хартлі і Шеннона.

Американський інженер Р. Хартлі в 1928 р процес отримання інформації розглядав як вибір одного повідомлення з кінцевого наперед заданої множини з N рівноймовірно повідомлень, а кількість інформації I, що міститься в обраному повідомленні, визначав як двійковий логарифм N.

Формула Хартлі: I = log2 N

Припустимо, потрібно вгадати одне число з набору чисел від одиниці до ста. За формулою Хартлі можна обчислити, скільки інформації для цього потрібно: I = log2 100> 6,644. Таким чином, повідомлення про вірно вгадав числі містить кількість інформації, приблизно рівне 6,644 одиниці інформації.

Наведемо інші приклади рівноймовірно повідомлень.
  1. при киданні монети: "випала решка". "Випав Прилуки";
  2. на сторінці книги: "кількість букв парне". "Кількість букв непарне".

Визначимо тепер, чи є рівноімовірними повідомлення "першою вийде з дверей будівлі жінка" і "першим вийде з дверей будівлі чоловік". Однозначно відповісти на це питання не можна. Все залежить від того, про який саме будівлі йде мова. Якщо це, наприклад, станція метро, ​​то ймовірність вийти з дверей першим однакова для чоловіка і жінки, а якщо це військова казарма, то для чоловіка ця ймовірність значно вище, ніж для жінки.

Для завдань такого роду американський вчений Клод Шеннон запропонував в 1948 р іншу формулу визначення кількості інформації, що враховує можливу неоднакову вірогідність повідомлень в наборі.

Легко помітити, що якщо ймовірності p1. pN рівні, то кожна з них дорівнює 1 / N. і формула Шеннона перетворюється в формулу Хартлі.

Крім двох розглянутих підходів до визначення кількості інформації, існують і інші. Важливо пам'ятати, що будь-які теоретичні результати застосовні лише до певного кола випадків, окресленому початковими припущеннями.

В якості одиниці інформації Клод Шеннон запропонував прийняти один біт (англ. Bit # 151; bi narydigit # 151; двоичная цифра).

Битв теорії інформації # 151; кількість інформації, необхідне для розрізнення двох рівноймовірно повідомлень (типу "орел" # 151; "решка", "чет" # 151; "непарне" і т.п.).

В обчислювальній техніці бітом називають найменшу "порцію" пам'яті комп'ютера, необхідну для зберігання одного з двох знаків "0" і "1", що використовуються для внутримашинного представлення даних і команд.

біт # 151; занадто дрібна одиниця виміру. На практиці частіше застосовується більш велика одиниця # 151; байт. рівна восьми бітам. Саме вісім бітів потрібно для того, щоб закодувати будь-який з 256 символів алфавіту клавіатури комп'ютера (256 = 2 8).

Широко використовуються також ще більші похідні одиниці інформації.
  • 1 Кілобайтів (Кбайт) = 1024 байт = 2 10 байт,
  • 1 Мегабайт (Мбайт) = 1024 Кбайт = 2 20 байт,
  • 1 Гігабайт (Гбайт) = 1024 Мбайт = 2 30 байт.
Останнім часом у зв'язку зі збільшенням обсягів оброблюваної інформації входять у вжиток такі похідні одиниці, як:
  • 1 Терабайт (Тбайт) = 1024 Гбайт = 2 40 байт,
  • 1 Петабайт (Пбайт) = 1024 Тбайт = 2 50 байт.

За одиницю інформації можна було б вибрати кількість інформації, необхідне для розрізнення, наприклад, десяти рівноймовірно повідомлень. Це буде не двійкова (біт), а десяткова (дит) одиниця інформації.