Надмірність джерела повідомлень

З ентропійних оцінок джерел повідомлень, ясно, що вона залежить від статичних характеристик самих повідомлень. Ентропія максимальна при рівномірному появі букв на будь-якому місці повідомлення. Для характеристики джерела повідомлень з різних алфавітом представляє інтерес порівняння фактичної ентропії джерела з максимально можливою. У цьому сенсі введено поняття надмірності джерела повідомлень або надмірності алфавіту.

M - кількість різних букв в алфавіті;

H (X) - середня ентропія на одну букву.

Надмірність істочнікаR показує на скільки добре використовуються літери в даному джерелі. Чим менше R. тим більша кількість інформації виробляється джерелом на одну букву. Однак, не завжди необхідно прагнути до R = 0. З підвищенням надмірності підвищується стійкість (надійність) джерела. З'ясування кількості надмірності важливо тому, що ми повинні вводити її розумно, щоб отримати максимальний ефект помехозащищенности, а не покладатися на стихію. Наприклад, надмірність будь-якої мови виявляється близько 50-70%, тобто якби всі букви мали однакову ймовірність використання і можна було б використовувати будь-які комбінації букв, то середню довжину слова можна було б значно зменшити. Однак розбиратися в цьому записі було б значно важче, особливо при наявності помилок (лектора або студента).

Сучасні системи зв'язку побудовані без врахування обмежень, що існують в мові, а тому не досить ефективні, так як вони пристосовані для передачі рівно можливих букв алфавіту, які можуть слідувати один за одним в будь-яких комбінаціях.

Колосальна надмірність властива телевізійним зображенням: природно передавати не весь кадр, а тільки інформацію відповідає тому, чим відрізняється один кадр від іншого. Цим можна істотно скоротити необхідну (в середньому) смугу частот.

Розрізняють дві складові надмірності:

  • надмірність, обумовлена ​​статистичної взаємозв'язком букв між собою:

де H (X) - ентропія для букв, коли вони неравновероятни і взаємопов'язані;

H1 (X) - ентропія для букв, коли вони статистично не пов'язані і неравновероятни.

  • надмірність, обумовлена ​​розподілом ймовірностей між буквами алфавіту:

Але статистичні зв'язки між елементами укрупненого алфавіту падають Rс ≈ 0; отже зростає нерівномірність вживання окремих букв алфавіту M2. тобто Rр2 >> Rр1; Rр2 ≈ R1 ≈ R2.

Доказ, що R1 ≈ R2 зводиться до наступного:

З властивості адитивності інформації випливає, що в одному елементі другого алфавіту міститься стільки ж інформації, скільки її міститься в n елементах первинного алфавіту. Середня кількість інформації на один елемент першого алфавіту - H1; математичне очікування на n елементів першого алфавіту - n · H1 одно інформації на один елемент другого алфавіту H2 (X) = n · H1.

2. Надмірність другого алфавіту

Надмірність мови підраховується за формулою:

де Hmax = log M. а M - число букв в алфавіті.

а 0; 1; 2 ... - кількість букв між якими враховуються взаємозв'язку.

1. У скільки разів більше міститься інформації на сторінці тексту для іноземця, який розпочав вивчати новий для себе мову (наприклад, український) і для носія мови?

Відповідь. Для носія мови середня кількість інформації на одну букву визначається як Hязика ≈ H30 = 1.35 біт /буква. а для іноземця, погано знає словник і не враховує взаємозв'язок букв між собою H = H0 або H1. що відповідає

Тобто на сторінці тексту для носія мови міститься інформації в

2. У скільки разів подовжується текст в ділових паперах, якщо їх надмірність становить 90 ÷ 95%?

Відповідь. При такій надмірності ентропія на одну букву становить:

У той час як в письмовій мові: H∞ (X) = 0.87 ÷ 1.37 біт /буква.

Текст подовжується в раз.