Формули Байєса - це
«Фізичний сенс» і термінологія
Формула Байєса дозволяє «переставити причину і наслідок»: за відомим фактом події обчислити вірогідність того, що воно було викликано даної причиною.
Події, що відображають дію «причин», в даному випадку зазвичай називають гіпотезами. так як вони - передбачувані події, що призвели до дане. Безумовну ймовірність справедливості гіпотези називають апріорної (наскільки ймовірна причина взагалі), а умовну - з урахуванням факту події, що сталася - апостеріорної (наскільки ймовірна причина виявилася з урахуванням даних про подію).
Важливим наслідком формули Байеса є формула повної ймовірності події, що залежить від декількох несумісних гіпотез (і тільки від них!).
- ймовірність настання події B. залежить від ряду гіпотез Ai. якщо відомі ступеня достовірності цих гіпотез (наприклад, виміряні експериментально);
Якщо подія залежить тільки від причин Ai. то якщо воно відбулося, значить, обов'язково сталася якась із причин, тобто
За формулою Байєса
Перенесенням P (B) вправо отримуємо дані вираз.
Метод фільтрації спаму
Метод, заснований на теоремі Байеса, знайшов успішне застосування в фільтрації спаму.
При навчанні фільтра для кожного зустрінутого в листах слова вираховується і зберігається його «вага» - ймовірність того, що лист з цим словом - спам (в найпростішому випадку - за класичним визначенням ймовірності: «появ в спам / появ всього» [1]).
При перевірці знову прийшов листи обчислюється ймовірність того, що воно - спам, за вказаною вище формулою для безлічі гіпотез. В даному випадку «гіпотези» - це слова, і для кожного слова «достовірність гіпотези» -% цього слова в листі, а «залежність події від гіпотези» P (B | Ai) - вичісленнний раніше «вага» слова. Тобто «вага» листа в даному випадку - не що інше, як усереднений «вага» всіх його слів.
Віднесення листи до «спаму» чи «не-спаму» проводиться за тим, чи перевищує його «вага» якусь планку, задану користувачем (зазвичай беруть 60-80%). Після прийняття рішення по листу в базі даних оновлюються «ваги» для ввійшли в нього слів.
характеристика
Даний метод простий (алгоритми елементарні), зручний (дозволяє обходитися без «чорних списків» і подібних штучних прийомів), ефективний (після навчання на досить великій вибірці відсікає до 95-97% спаму, і в разі будь-яких помилок його можна дообучать). Загалом, є всі показання для його повсюдного використання, що і має місце на практиці - на його основі побудовані практично всі сучасні спам-фільтри.
Втім, у методу є і принциповий недолік: він базується на припущенні. що одні слова частіше зустрічаються в спам, а інші - в звичайних листах. і неефективний, якщо це припущення невірно. Втім, як показує практика, такий спам навіть людина не в змозі визначити «на око» - тільки прочитавши лист і зрозумівши його зміст.
Примітки
- ↑ В більш складних випадках можлива попередня обробка тексту: приведення слів в початкову форму, видалення службових слів, обчислення «ваги» для цілих фраз, транслітерація і ін.
Дивитися що таке "Формули Байєса" в інших словниках:
Формула Байєса - Теорема Байєса одна з основних теорем елементарної теорії ймовірностей, яка визначає ймовірність настання події в умовах, коли на основі спостережень відома лише деяка часткова інформація про події. За формулою Байєса можна ... ... Вікіпедія
Теорема Байєса - (або формула Байеса) одна з основних теорем теорії ймовірностей, яка дозволяє визначити ймовірність того, що сталося якесь небудь подія (гіпотеза) при наявності лише непрямих підтверджень (даних), які можуть бути неточні ... Вікіпедія
ГЕНЕТИЧНЕ КОНСУЛЬТУВАННЯ - або медико-генетичне консультування, вид медичної допомоги тим, хто стурбований, що захворювання або вроджене каліцтво явно або імовірно спадкового характеру може виникнути у будь то членів сім'ї. Завдання генетичного ... ... Енциклопедія Кольєра
Інформаційна ентропія - Інформаційна ентропія міра невизначеності або непередбачуваності інформації, невизначеність появи будь-якого символу первинного алфавіту. При відсутності інформаційних втрат чисельно дорівнює кількості інформації на символ ... ... Вікіпедія
Умовна ентропія - Ентропія (інформаційна) міра хаотичності інформації, невизначеність появи будь-якого символу первинного алфавіту. При відсутності інформаційних втрат чисельно дорівнює кількості інформації на символ переданого повідомлення. Наприклад, в ... ... Вікіпедія
Ентропія (теорія інформації) - ентропія (інформаційна) міра хаотичності інформації, невизначеність появи будь-якого символу первинного алфавіту. При відсутності інформаційних втрат чисельно дорівнює кількості інформації на символ переданого повідомлення. Наприклад, в ... ... Вікіпедія
- Теорія ймовірностей і математична статистика в прикладах і задачах. Нікітіна Н.С. Цей навчальний посібник містить завдання і приклади, які відносяться до наступних розділах теорії ймовірностей і математичної статистики: алгебра подій, класичне визначення вірогідності, ... Детальніше Купити за 544 руб
- Теорія ймовірностей і математична статистика в прикладах і задачах. Навчальний посібник. Н. С. Нікітіна, А. В. Степанов. Цей навчальний посібник містить завдання і приклади, які відносяться до наступних розділах теорії ймовірностей і математичної статистики: алгебра подій, класичне визначення вірогідності, ... Детальніше Купити за 494 грн (тільки Україна)
- Задачник з теорії ймовірностей. Палій І.О. У книгу включені 700 завдань, які охоплюють такі розділи курсу: комбінаторика; події та дії над ними; класичне імовірнісний простір; геометричні ймовірності; ... Детальніше Купити за 190 руб