Робастное оцінювання

Протягом останніх десятиліть зростало розуміння того факту, що деякі найбільш поширені статистичні процедури (в тому числі ті, які є оптимальними в припущенні про нормальність розподілу) дуже чутливі до досить малих відхилень від припущень. Ось чому тепер з'явилися інші процедури - "робастні" (від англ. Robust - міцний, здоровий, дужий).

Ми будемо розуміти під терміном робастної нечутливість до малих відхилень від припущень. Процедура робастний, якщо малі відхилення від припущень моделі повинні погіршувати якість процедури (наприклад, асимптотика дисперсії або рівень значущості та потужність критерію) повинні бути близькі до номінальних величин, обчисленим для прийнятої моделі.

Розглянемо робастної за розподілом. тобто ситуації, в яких справжня функція розподілу незначно відрізняється від передбачуваної в моделі (як правило, гауссовской функції розподілу). Це не тільки найбільш важливий випадок, але і найбільш повно вивчений. Набагато менше відомо про те, що відбувається в тих ситуаціях, коли кілька порушуються інші стандартні припущення статистики, і те, які заходи захисту повинні передбачатися в подібних випадках.

Основні типи оцінок

Введемо оцінки трьох основних типів (), літери відповідають відповідно оцінками типу максимальної правдоподібності, лінійним комбінаціям порядкових статистик і оцінками, одержуваних в рангових умовах.

Особливе значення мають оцінки, це найбільш гнучкі оцінки - вони допускають пряме узагальнення на багатопараметричний випадок.

Оцінки типу максимальної правдоподібності (M-оцінки)

А вся оцінка, яка визначається як вирішення екстремальній завдання на мінімум виду

або як рішення неявного рівняння

де - довільна функція,, називається оцінкою (або оцінкою типу максимальної правдоподібності); зауважимо, що якщо вибрати в якості опції, то ми отримаємо звичайну оцінку максимальної правдоподібності.

Зокрема, нас будуть цікавити оцінки зсуву

Останнє рівняння можна записати в еквівалентній вигляді

Тоді ми можемо уявити оцінку в формі зваженого середнього

з ваговими коефіцієнтами, залежними від вибірки.

Лінійні комбінації порядкових статистик (L-оцінки)

Розглянемо статистику, яка представляє собою лінійну комбінацію порядкових статистик або, в більш загальній постановці, значень на деякій функції:

Припустимо, що вагові коефіцієнти породжуються за допомогою (знакозмінної) заходи на інтервалі (0,1):

(Такий вибір коефіцієнтів залишає загальну масу без змін, тобто ^ n ">, і забезпечує симетричність коефіцієнтів, якщо міра симетрична щодо точки.)

У рассматріваевом випадку оцінка виходить за допомогою функціоналу

Тут під функцією, оберненою до ффункціі розподілу, розуміється функція

Найпростішим прикладом служить медіана вибірки.
Вінзорізованное середнє (Winsorized mean). Для його обчислення значення вихідну вибірку впорядковують в певному порядку (наприклад, зростання), потім з кожного боку відсікається якийсь відсоток даних (зазвичай, беруть по 10% або 25% з кожної сторони однаково), а прибрані спеціально підібраним чином замінюються на значення з решти чисел, потім виісляется середнє по всій вибірці.
Усеченное середнє (Truncated mean). Для його обчислення усереднюються дані варіаційного ряду вибірки після видалення з обох сторін певної частки об'єктів (вона знаходиться в межах від 5 до 25%).
Обрізане середнє (Trimean). Величина обчислюється за такою формулою ">, де - квартили i-го порядку.

Далеко не всі порядкові статистики є робастний. Максимум, мінімум, середнє і полусумма максимуму і мінімуму не є робастний, їх характеристика, що показує скільки спостереження можна змінити, щоб це не вплинуло на кінцевий результат, дорівнює 0. У робастних оцінок ця характеристика дорівнює 50% в разі медіани, а в інших менше і залежить від відсотка, який використовується для відсікання даних.

Оцінки, одержувані в рангових умовах (R-оцінки)

Розглянемо двухвиборочний рангові критерій для визначення параметра зсуву: нехай і суть дві незалежні вибірки з розподілами і соответственно.Об'едінім ці вибірку в одну вибірку обсягу .Нехай є ранг спостереження в об'єднаній вибірці. Задамо ваги. Критерій для перевірки гіпотези при альтернативі 0 "alt =" \ Delta> 0 "> побудуємо на основі статистики

Як правило, ми вважаємо, що вагові коефіцієнти виходять за допомогою деякої функції за формулою

Насправді воліють працювати з наступним варіантів обчислення

Для спрощення з цього моменту вважаємо, що. Запишемо статистику у вигляді функціоналу

який при підстановці набуде вигляду

На практиці працюють з останнім. Крім того, працюємо з умовою того, що

У цих припущеннях математичне очікування статистики при нульовій гіпотезі дорівнює 0.

Оцінки зсуву в Двухвиборочний постановці і зсуву в разі однієї вибірки можна отримати за допомогою наступних рангових критеріїв.

У разі двох вибірок отримати з наближеного рівняння "> отриманого для вибірок і
Якщо йдеться про одну вибірки отримати з умови ">, обчисленого для вибірок і. У цьому випадку відсутньої другий вибіркою служить дзеркальне відображення вихідної вибірки.

Іншими словами, друга вибірка зміщується до тих пір, поки критерій не перстает відчувати відмінність в зсуві. Зауважимо, що нульове значення в точності може і не досягатися, оскільки "> - розривна функція.

Таким чином, наша оцінка зсуву, отримана за допомогою функціоналу, визначається неявним рівнянням

Критерій Уилкоксона, в якому, призводить до оцінок Ходжес-Лемана, а саме до оцінок і. Зауважимо, що наші вказівки в другому випадку призводять до медіані набору їх всіх пар; в більш традиційних варіантах використовуються тільки ті пари, у яких

Константа регулює ступінь робастности, її значення добре вибирати з проміжку від 1 до 2, наприклад, найчастіше.

Потім по псевдонаблюденіям "> обчислюються нові значення" > підгонки (і нові). Дії повторюються до досягнення збіжності.

Якщо все спостереження абсолютно точні, то класична оцінка дисперсії окремого спостереження має вигляд \ sum ">, і стандартну помилку залишку можна в цьому випадку оцінювати величиною s" >, де є -й діагональний елемент матриці.

При використанні замість залишків модифікованих залишків = y_i ^ - ">, як неважко бачити, виходить занижена оцінка масштабу. Що з'явилося зміщення можна ліквідувати, вважаючи (в першому наближенні)

де - число спостережень без числа параметрів, - число незмінних спостережень (= y_i ">).

Очевидно, що ця процедура зводить нанівець вплив виділяються спостережень.

Таким способом можна отримати робастний варіант будь-якої процедури. Спочатку дані "редагуються" - виділяються спостереження заміщаються значеннями, отриманими при підгонці, а потім послідовно проводять переподгонку до тих пір, поки не з'явиться збіжність. Після цього до псевдонаблюденіям застосовується потрібна процедура.

література

Хьюбер П. Робастність у статистиці. - М. Мир, 1984.

Див. Також методичні вказівки по використанню Ресурсу MachineLearning.ru в навчальному процесі.