Онлайн калькулятор визначення числа груп при побудові гістограми

Сьогодні, говорячи про статистику, я буду обговорювати гістограми. Взагалі кажучи, гістограма є наочним відображенням методу угруповання, тобто розподілу безлічі результатів вимірювань будь-якої величини по групах, відповідно до істотним для даної групи ознакою. Методи угруповання широко застосовуються для обробки первинних даних.
Під первинними даними в статистиці ми розуміємо статистичні ряди, які називають рядами динаміки. якщо мова йде про зміну явища в часі, або рядами розподілу. якщо мова йде про склад або структуру досліджуваного явища.
Якщо мова йде про рядах, побудованих на основі якісних ознак (наприклад, підприємства за формами власності), то такі ряди називаються атрибутивними. якщо ряди побудовані за кількісними ознаками (наприклад, підприємства за обсягом товарообігу), то вони називаються варіаційними.
Залежно від переривчастості варіації ознаки розрізняють дискретні та інтервальні варіаційні ряди.
Гістограма являє собою стовпчастий графік, побудований за отриманими даними, які розбиваються на кілька груп. Число даних, які потрапили в кожну групу (частота), виражається висотою стовпчика, що відповідає даній групі.
Гістограму можна будувати для будь-яких рядів, при цьому, якщо це атрибутивний або дискретний варіаційний ряд (наприклад, число робочих в кожному тарифному розряді), то число виділених груп дорівнює числу варіантів значень ознаки. У разі ж інтервального варіаційного ряду число груп буде залежати від величини інтервалу, використовуваного для угруповання даних.
Інтервал - різниця між максимальним і мінімальним значеннями ознаки в кожній групі. Зрозуміло, що чим більше груп, тим менше інтервал і навпаки. Групи в такому випадку іноді називають також класами інтервалів.
Наприклад, можна розбити отримані дані про чисельність робітників на підприємствах на наступні групи:
до 25 осіб,
25-50 чоловік,
50-100 чоловік,
понад 100 осіб.
Тоді гістограма буде містити 4 стовпчика, висота яких буде відповідати числу підприємств потрапили до цієї групи.
Зауважимо, до речі, що вищенаведене розподіл є прикладом використання нерівних інтервалів. виділених, що називається, програмою дослідження, т. е. нами самими.
Питання вибору величини інтервалу (числа груп), що використовується для угруповання елементів інтервального варіаційного ряду, дуже важливе. Крім того, що гістограма є відмінним засобом візуалізації даних, вона також є ні чим іншим, як наближенням функції розподілу ймовірності (див. Малюнок). Т. е. Величина стовпчика кожної групи показує ймовірність того, що таке значення вимірюваної величини потрапить до цієї групи.
Занадто велика кількість груп може дати занадто «скаче» графік, занадто мале - занадто «згладжений». В ідеалі, очевидно, хотілося б мати число груп, що дає найменше відхилення від функції розподілу ймовірності, т. Е. Що дозволяє дати найбільш точну оцінку цій функції розподілу ймовірності досліджуваного явища.
Загалом, математики цим зайнялися.
Першим, як видно, був Стерджесc (Sturges, 1926). Він розглянув ідеалізовану частотну гистограмму з k класів, де i-е значення дорівнювало біноміальному коефіцієнту. При досить великих k форма гістограми наближалася до форми нормального розподілу. Сума всіх значень дорівнювала
.
Таким чином, для n результатів вимірювань величини, що підкоряється нормальному розподілу, число класів, які використовуються при побудові гістограми слід брати як і форма отриманої гістограми буде наближатися до форми нормального розподілу для досить великого k. Це і є формула Стерджесс. У цьому виді вона потрапила практично в усі підручники з статистикою.
Формула ця в даний час піддається критиці саме за те, що вона явно використовує біноміальний розподіл для апроксимації нормального розподілу, що не завжди доречно. Вважається, що ця формула дозволяє будувати задовільні гістограми при числі вимірювань менше 200.
Існує цілий ряд альтернативних формул, деякі з яких обчислюють довжину інтервалу, після чого визначається число необхідних класів (див. Тут).
Розглянемо пару таких формул:
Формула Скотта (Scott, 1979)
, де h - довжина інтервалу, s - стандартне відхилення значень ряду вимірювань
Формула Фрідмана діаконисою (Freedman and Diaconis, 1981)
, де h - довжина інтервалу, (IQ) - різниця між верхнім і нижнім Квартиль.
Ці формули досить прості і обгрунтовані статистичною теорією, і вважаються краще формули Стерджесса.
Крім побудови гістограми з використанням числа класів, отриманих за формулою Стерджесс, будуються гістограми з числом класів по Скотту і Фрідману / діаконисою, а також з числом класів, довільно заданих користувачем.
Звичайно, практичного застосування в цьому калькуляторі ніякого, але зате можна подивитися на різницю в числі класів і зовнішній вигляд гістограми.