Надмірність джерела повідомлень
З ентропійних оцінок джерел повідомлень, ясно, що вона залежить від статичних характеристик самих повідомлень. Ентропія максимальна при рівномірному появі букв на будь-якому місці повідомлення. Для характеристики джерела повідомлень з різних алфавітом представляє інтерес порівняння фактичної ентропії джерела з максимально можливою. У цьому сенсі введено поняття надмірності джерела повідомлень або надмірності алфавіту.
M - кількість різних букв в алфавіті;
H (X) - середня ентропія на одну букву.
Надмірність істочнікаR показує на скільки добре використовуються літери в даному джерелі. Чим менше R. тим більша кількість інформації виробляється джерелом на одну букву. Однак, не завжди необхідно прагнути до R = 0. З підвищенням надмірності підвищується стійкість (надійність) джерела. З'ясування кількості надмірності важливо тому, що ми повинні вводити її розумно, щоб отримати максимальний ефект помехозащищенности, а не покладатися на стихію. Наприклад, надмірність будь-якої мови виявляється близько 50-70%, тобто якби всі букви мали однакову ймовірність використання і можна було б використовувати будь-які комбінації букв, то середню довжину слова можна було б значно зменшити. Однак розбиратися в цьому записі було б значно важче, особливо при наявності помилок (лектора або студента).
Сучасні системи зв'язку побудовані без врахування обмежень, що існують в мові, а тому не досить ефективні, так як вони пристосовані для передачі рівно можливих букв алфавіту, які можуть слідувати один за одним в будь-яких комбінаціях.
Колосальна надмірність властива телевізійним зображенням: природно передавати не весь кадр, а тільки інформацію відповідає тому, чим відрізняється один кадр від іншого. Цим можна істотно скоротити необхідну (в середньому) смугу частот.
Розрізняють дві складові надмірності:
- надмірність, обумовлена статистичної взаємозв'язком букв між собою:
де H (X) - ентропія для букв, коли вони неравновероятни і взаємопов'язані;
H1 (X) - ентропія для букв, коли вони статистично не пов'язані і неравновероятни.
- надмірність, обумовлена розподілом ймовірностей між буквами алфавіту:
Але статистичні зв'язки між елементами укрупненого алфавіту падають Rс ≈ 0; отже зростає нерівномірність вживання окремих букв алфавіту M2. тобто Rр2 >> Rр1; Rр2 ≈ R1 ≈ R2.
Доказ, що R1 ≈ R2 зводиться до наступного:
З властивості адитивності інформації випливає, що в одному елементі другого алфавіту міститься стільки ж інформації, скільки її міститься в n елементах первинного алфавіту. Середня кількість інформації на один елемент першого алфавіту - H1; математичне очікування на n елементів першого алфавіту - n · H1 одно інформації на один елемент другого алфавіту H2 (X) = n · H1.
2. Надмірність другого алфавіту
Надмірність мови підраховується за формулою:
де Hmax = log M. а M - число букв в алфавіті.
а 0; 1; 2 ... - кількість букв між якими враховуються взаємозв'язку.
1. У скільки разів більше міститься інформації на сторінці тексту для іноземця, який розпочав вивчати новий для себе мову (наприклад, український) і для носія мови?
Відповідь. Для носія мови середня кількість інформації на одну букву визначається як Hязика ≈ H30 = 1.35 біт /буква. а для іноземця, погано знає словник і не враховує взаємозв'язок букв між собою H = H0 або H1. що відповідає
Тобто на сторінці тексту для носія мови міститься інформації в
2. У скільки разів подовжується текст в ділових паперах, якщо їх надмірність становить 90 ÷ 95%?
Відповідь. При такій надмірності ентропія на одну букву становить:
У той час як в письмовій мові: H∞ (X) = 0.87 ÷ 1.37 біт /буква.
Текст подовжується в раз.