Глава 1 - введення в інформатику
1.5. Як вимірюється кількість інформації?
Яка кількість інформації міститься, наприклад, в тексті роману "Війна і мир", у фресках Рафаеля або в генетичному коді людини? Відповіді на ці питання наука не дає і, цілком ймовірно, дасть не скоро. А чи можливо об'єктивно виміряти кількість інформації. Найважливішим результатом теорії інформації є наступний висновок:
У певних, досить широких умовах можна знехтувати якісними особливостями інформації, висловити її кількість числом, а також порівняти кількість інформації, що міститься в різних групах даних.
В даний час набули поширення підходи до визначення поняття "кількість інформації", засновані на тому, що інформацію, що міститься в повідомленні, можна нестрого трактувати в сенсі її новизни або, інакше, зменшення невизначеності наших знань про об'єкт. Ці підходи використовують математичні поняття ймовірності і логарифма. Якщо ви ще не знайомі з цими поняттями, то можете поки пропустити цей матеріал.
Підходи до визначення кількості інформації. Формули Хартлі і Шеннона.
Американський інженер Р. Хартлі в 1928 р процес отримання інформації розглядав як вибір одного повідомлення з кінцевого наперед заданої множини з N рівноймовірно повідомлень, а кількість інформації I, що міститься в обраному повідомленні, визначав як двійковий логарифм N.
Формула Хартлі: I = log2 N
Припустимо, потрібно вгадати одне число з набору чисел від одиниці до ста. За формулою Хартлі можна обчислити, скільки інформації для цього потрібно: I = log2 100> 6,644. Таким чином, повідомлення про вірно вгадав числі містить кількість інформації, приблизно рівне 6,644 одиниці інформації.
Наведемо інші приклади рівноймовірно повідомлень.- при киданні монети: "випала решка". "Випав Прилуки";
- на сторінці книги: "кількість букв парне". "Кількість букв непарне".
Визначимо тепер, чи є рівноімовірними повідомлення "першою вийде з дверей будівлі жінка" і "першим вийде з дверей будівлі чоловік". Однозначно відповісти на це питання не можна. Все залежить від того, про який саме будівлі йде мова. Якщо це, наприклад, станція метро, то ймовірність вийти з дверей першим однакова для чоловіка і жінки, а якщо це військова казарма, то для чоловіка ця ймовірність значно вище, ніж для жінки.
Для завдань такого роду американський вчений Клод Шеннон запропонував в 1948 р іншу формулу визначення кількості інформації, що враховує можливу неоднакову вірогідність повідомлень в наборі.
Легко помітити, що якщо ймовірності p1. pN рівні, то кожна з них дорівнює 1 / N. і формула Шеннона перетворюється в формулу Хартлі.
Крім двох розглянутих підходів до визначення кількості інформації, існують і інші. Важливо пам'ятати, що будь-які теоретичні результати застосовні лише до певного кола випадків, окресленому початковими припущеннями.
В якості одиниці інформації Клод Шеннон запропонував прийняти один біт (англ. Bit # 151; bi narydigit # 151; двоичная цифра).
Битв теорії інформації # 151; кількість інформації, необхідне для розрізнення двох рівноймовірно повідомлень (типу "орел" # 151; "решка", "чет" # 151; "непарне" і т.п.).
В обчислювальній техніці бітом називають найменшу "порцію" пам'яті комп'ютера, необхідну для зберігання одного з двох знаків "0" і "1", що використовуються для внутримашинного представлення даних і команд.
біт # 151; занадто дрібна одиниця виміру. На практиці частіше застосовується більш велика одиниця # 151; байт. рівна восьми бітам. Саме вісім бітів потрібно для того, щоб закодувати будь-який з 256 символів алфавіту клавіатури комп'ютера (256 = 2 8).
Широко використовуються також ще більші похідні одиниці інформації.- 1 Кілобайтів (Кбайт) = 1024 байт = 2 10 байт,
- 1 Мегабайт (Мбайт) = 1024 Кбайт = 2 20 байт,
- 1 Гігабайт (Гбайт) = 1024 Мбайт = 2 30 байт.
- 1 Терабайт (Тбайт) = 1024 Гбайт = 2 40 байт,
- 1 Петабайт (Пбайт) = 1024 Тбайт = 2 50 байт.
За одиницю інформації можна було б вибрати кількість інформації, необхідне для розрізнення, наприклад, десяти рівноймовірно повідомлень. Це буде не двійкова (біт), а десяткова (дит) одиниця інформації.