Точний тест Фішера 1

Матеріал з MachineLearning.

З великими вибірками в цій ситуації може використовуватися тест хі-квадрат. Однак, цей тест не є гідною кандидатурою, коли математичні очікування значень в будь-який з елементів таблиці з заданими межами виявляється нижче 10: обчислене вибіркове розподіл випробуваної статистичної величини тільки приблизно дорівнює теоретичному розподілу хі-квадрат, і наближення неадекватно в цих умовах (які виникають, коли розміри вибірки малі, або дані дуже нерівноцінні розподілені серед елементів таблиці). Тест Фішера, як випливає з його назви, є точним, і може тому використовуватися незалежно від особливостей вибірки. Тест стає важко обчислюваних для великих вибірок або добре врівноважених таблиць, але на щастя саме для цих умов добре застосуємо критерій хі-квадрат.

Для ручних обчислень тест виконаємо в тільки випадку розмірності факторних таблиць 2 x 2. Однак принцип тесту може бути розширений на загальний випадок таблиць m x n, і деякі статистичні пакети забезпечують такі обчислення (іноді використовуючи метод Монте-Карло. Щоб отримати наближення).

Дані могли б бути схожими на такі:

Щоб оцінити статистичну значущість спостережуваних даних, тобто повну ймовірність такого ж або більш вираженого «перекосу» в бік знаходження дівчат на дієті, в припущенні нульової гіпотези ми повинні обчислити ймовірності цінності p для обох цих таблиць і скласти їх. Це дає, т.зв. односторонній тест; для двостороннього тесту ми повинні також розглянути таблиці, які так само перекошені, але в протилежному напрямку (тобто розглянути випадок переважного знаходження на дієті юнаків).

На жаль, класифікація таблиць згідно з тим, чи є вони 'надзвичайно перекошеними', проблематична. Підхід, який використовується мовою програмування R, пропонує обчислити величину критерію p, підсумовуючи ймовірності для всіх таблиць з можливостями, менше ніж або рівними ймовірності спостерігається таблиці. Для таблиць з малими числами в осередках двостороння оцінка критерію може істотно відрізнятися від подвоєною величини однобічної оцінки, на відміну від випадку до статистичних даних, у яких є симетрична розподіл вибірки.

Більшість сучасних статистичних пакетів обчислює значення тестів Фішера, в деяких випадках навіть там, де наближення хі-квадрат також було б прийнятним. Фактичні обчислення, виконані статистичними пакетами програм, будуть як правило відрізнятися від описаних. Зокрема числові труднощі можуть слідувати з великих величин факториалов. Прості, але навіть більш ефективні обчислювальні підходи засновані на використанні гамма-функції або логарифмічною гамма-функції, однак точне обчислення гіпергеометричних і біноміальних ймовірностей - область сучасних досліджень.

література

[1] Точний тест Фішера, калькулятор
[2] On-line точний тест Фішера, з прикладами
[3] On-line точний тест Фішера, який працює з великими значеннями клітин
[4] mathworld.wolfram.com Розгляд m x n розширення точного тесту Фішера