Формули Байєса - це

«Фізичний сенс» і термінологія

Формула Байєса дозволяє «переставити причину і наслідок»: за відомим фактом події обчислити вірогідність того, що воно було викликано даної причиною.

Події, що відображають дію «причин», в даному випадку зазвичай називають гіпотезами. так як вони - передбачувані події, що призвели до дане. Безумовну ймовірність справедливості гіпотези називають апріорної (наскільки ймовірна причина взагалі), а умовну - з урахуванням факту події, що сталася - апостеріорної (наскільки ймовірна причина виявилася з урахуванням даних про подію).

Важливим наслідком формули Байеса є формула повної ймовірності події, що залежить від декількох несумісних гіпотез (і тільки від них!).

- ймовірність настання події B. залежить від ряду гіпотез Ai. якщо відомі ступеня достовірності цих гіпотез (наприклад, виміряні експериментально);

Якщо подія залежить тільки від причин Ai. то якщо воно відбулося, значить, обов'язково сталася якась із причин, тобто


За формулою Байєса


Перенесенням P (B) вправо отримуємо дані вираз.

Метод фільтрації спаму

Метод, заснований на теоремі Байеса, знайшов успішне застосування в фільтрації спаму.

При навчанні фільтра для кожного зустрінутого в листах слова вираховується і зберігається його «вага» - ймовірність того, що лист з цим словом - спам (в найпростішому випадку - за класичним визначенням ймовірності: «появ в спам / появ всього» [1]).

При перевірці знову прийшов листи обчислюється ймовірність того, що воно - спам, за вказаною вище формулою для безлічі гіпотез. В даному випадку «гіпотези» - це слова, і для кожного слова «достовірність гіпотези» -% цього слова в листі, а «залежність події від гіпотези» P (B | Ai) - вичісленнний раніше «вага» слова. Тобто «вага» листа в даному випадку - не що інше, як усереднений «вага» всіх його слів.

Віднесення листи до «спаму» чи «не-спаму» проводиться за тим, чи перевищує його «вага» якусь планку, задану користувачем (зазвичай беруть 60-80%). Після прийняття рішення по листу в базі даних оновлюються «ваги» для ввійшли в нього слів.

характеристика

Даний метод простий (алгоритми елементарні), зручний (дозволяє обходитися без «чорних списків» і подібних штучних прийомів), ефективний (після навчання на досить великій вибірці відсікає до 95-97% спаму, і в разі будь-яких помилок його можна дообучать). Загалом, є всі показання для його повсюдного використання, що і має місце на практиці - на його основі побудовані практично всі сучасні спам-фільтри.

Втім, у методу є і принциповий недолік: він базується на припущенні. що одні слова частіше зустрічаються в спам, а інші - в звичайних листах. і неефективний, якщо це припущення невірно. Втім, як показує практика, такий спам навіть людина не в змозі визначити «на око» - тільки прочитавши лист і зрозумівши його зміст.

Примітки

  1. ↑ В більш складних випадках можлива попередня обробка тексту: приведення слів в початкову форму, видалення службових слів, обчислення «ваги» для цілих фраз, транслітерація і ін.

Дивитися що таке "Формули Байєса" в інших словниках:

Формула Байєса - Теорема Байєса одна з основних теорем елементарної теорії ймовірностей, яка визначає ймовірність настання події в умовах, коли на основі спостережень відома лише деяка часткова інформація про події. За формулою Байєса можна ... ... Вікіпедія

Теорема Байєса - (або формула Байеса) одна з основних теорем теорії ймовірностей, яка дозволяє визначити ймовірність того, що сталося якесь небудь подія (гіпотеза) при наявності лише непрямих підтверджень (даних), які можуть бути неточні ... Вікіпедія

ГЕНЕТИЧНЕ КОНСУЛЬТУВАННЯ - або медико-генетичне консультування, вид медичної допомоги тим, хто стурбований, що захворювання або вроджене каліцтво явно або імовірно спадкового характеру може виникнути у будь то членів сім'ї. Завдання генетичного ... ... Енциклопедія Кольєра

Інформаційна ентропія - Інформаційна ентропія міра невизначеності або непередбачуваності інформації, невизначеність появи будь-якого символу первинного алфавіту. При відсутності інформаційних втрат чисельно дорівнює кількості інформації на символ ... ... Вікіпедія

Умовна ентропія - Ентропія (інформаційна) міра хаотичності інформації, невизначеність появи будь-якого символу первинного алфавіту. При відсутності інформаційних втрат чисельно дорівнює кількості інформації на символ переданого повідомлення. Наприклад, в ... ... Вікіпедія

Ентропія (теорія інформації) - ентропія (інформаційна) міра хаотичності інформації, невизначеність появи будь-якого символу первинного алфавіту. При відсутності інформаційних втрат чисельно дорівнює кількості інформації на символ переданого повідомлення. Наприклад, в ... ... Вікіпедія

  • Теорія ймовірностей і математична статистика в прикладах і задачах. Нікітіна Н.С. Цей навчальний посібник містить завдання і приклади, які відносяться до наступних розділах теорії ймовірностей і математичної статистики: алгебра подій, класичне визначення вірогідності, ... Детальніше Купити за 544 руб
  • Теорія ймовірностей і математична статистика в прикладах і задачах. Навчальний посібник. Н. С. Нікітіна, А. В. Степанов. Цей навчальний посібник містить завдання і приклади, які відносяться до наступних розділах теорії ймовірностей і математичної статистики: алгебра подій, класичне визначення вірогідності, ... Детальніше Купити за 494 грн (тільки Україна)
  • Задачник з теорії ймовірностей. Палій І.О. У книгу включені 700 завдань, які охоплюють такі розділи курсу: комбінаторика; події та дії над ними; класичне імовірнісний простір; геометричні ймовірності; ... Детальніше Купити за 190 руб
Інші книги по запросу «Формули Байєса» >>