Оптимальне число інтервалів гістограми
Вихідні дані збірника:
ОПТИМАЛЬНИЙ ЧИСЛО ІНТЕРВАЛІВ гістограми
Бардас Сергій Олександрович
канд. фіз.-мат. наук, доцент ТюмГУ, м Константіновкаоград
Однією з основних ідей в статистиці є поняття функції щільності розподілу (щільності ймовірності). У зв'язку з цим важливою є проблема її оцінки. Для цього широко використовується гістограма. При її побудові необхідно визначити число інтервалів (груп), на які буде розбита вибіркова сукупність. Для цього часто застосовують формулу Стерджесс:
де - обсяг вибірки. Результат округлюють до найближчого цілого числа.
При отриманні цього результату потрібно було, що число елементів вибірки в -й групі одно біноміальному коефіцієнту
.
Сума коефіцієнтів (групових частот) дорівнює
,
вона повинна збігатися з обсягом вибірки, отже,
.
Логаріфміруя останній вираз, отримаємо формулу Стерджесс, яка статистично необгрунтована, але широко поширена в навчальній літературі.
Нижче розглянемо статистичні критерії, що застосовуються для оцінки числа інтервалів гістограми або їх довжини. Використовувані формули є асимптотическими, тобто їх слід застосовувати при великих обсягах вибіркових сукупностей.
Мінімізації інтегральної середньоквадратичної помилки
Позначимо через оцінку істинної функції,
Ще в роботі [1, с. 189] Н.В. Смирнов показав, що ухилення гістограми від невідомого графіка щільності убуває, як. В роботі [3, с. 605] Д. Скотт для оцінки довжини інтервалу гістограми мінімізував інтегральну среднеквадратическую помилку
,
де - точкова дисперсія, - точкове зміщення, - символ математичного очікування.
Була отримана наступна оцінка [3, с. 607]
,
де - довжина групового інтервалу.
Мінімізуючи два перших доданків, Скотт отримав асимптотичну оцінку оптимальної довжини інтервалу [3, с. 607]
Таким чином, на відміну від формули Стерджесса число інтервалів буде пропорційно, а не.
Наприклад, для нормального розподілу отримаємо
де стандартне відхилення. Формулу (3) часто застосовують для початкової оцінки довжини інтервалів незалежно від виду розподілу.
Нехай щира функція щільності розподілу має вигляд (лінійний розподіл):
В даному випадку
Тоді оптимальна довжина інтервалу дорівнюватиме
.
Для числа інтервалів отримаємо
Застосування інформаційного критерію Акаіке (AIC)
Для оцінки оптимального числа інтервалів критерій Акаіке [2] застосовується рідко. При цьому зазвичай згадується робота Тейлора [4]. AIC для оцінки оптимального числа інтервалів гістограми набуде вигляду
Тут - функція правдоподібності. Використання коефіцієнта 2 у формулі (6) є загальноприйнятим (так склалося історично). Функція правдоподібності для гістограми має вигляд
,
де - кількість вибіркових значень змінної в ї групи;
- довжина го інтервалу гістограми. При визначенні функції правдоподібності вважаємо, що не повинно бути порожніх груп і групових інтервалів, рівних нулю.
У разі рівних інтервалів, маємо:
де - розмах варіації.
Натуральний логарифм функції правдоподібності дорівнює:
де - складові незалежні від числа груп.
Не беручи до уваги величини, що не залежать від числа груп, підставимо (7) в (6), поміняємо знак і розділимо на 2. Отримаємо, що в разі рівних інтервалів, оптимальне число груп одно:
Розглянемо рівноімовірні (рівночастотними) інтервали. В цьому випадку
Тоді, згідно з критерієм Акаіке, оптимальне число інтервалів одно:
Співвідношення (8), (9) не містять припущень про вид функції розподілу ймовірностей, тому є непараметричних.
Цікавим є вивчити характер залежності числа груп від обсягу вибірки для різних методів. Тому доцільно отримати явні формули, що відповідають критеріям (8), (9).
Нехай функція щільності розподілу має вигляд (4). Розглянемо випадок рівних інтервалів. Розділимо відрізок на частин і обчислимо ймовірність того, що значення ознаки виявиться в інтервалі:
.
Отже, число спостережень в інтервалі оцінимо як. В цьому випадку
Тоді при заданій кількості даних оптимальне число груп знаходиться з умови
Проаналізуємо вираз (10):
При спрощення врахували, що. Відкинемо доданок, яке не залежить від числа груп. введемо позначення
Тоді оптимальне число груп при заданому обсязі вибірки відповідає максимуму виразу
Диференціюючи (11) по отримаємо, що при заданому обсязі вибірки оптимальне число груп знаходиться з рівняння
.
Відповідно до формули Ейлера-Маклорена
де коефіцієнт Бернуллі.
Диференціюючи і спрощуючи, отримаємо
Згідно (12, 13) оптимальне число інтервалів гістограми знаходиться з рівняння
У таблиці 1 наведені результати оцінки для функції щільності ймовірності (4) за формулами Стерджесса, Скотта і (14).
Число інтервалів гістограми для лінійної функції щільності ймовірності