теорія статистики

Тема 2 ЗВЕДЕННЯ І ГРУППИРОВКА

СТАТИСТИЧНИХ ДАНИХ. Побудова рядів РОЗПОДІЛУ

Другим етапом статистичного дослідження є зведення. суть якої полягає в обробці первинних матеріалів спостереження з метою отримання підсумкових або впорядкованих певним чином числових характеристик тієї чи іншої досліджуваної сукупності. Основним і найважливішим моментом зведення є угруповання. тобто об'єднання статистичних даних в однорідні за певними ознаками групи.

Угруповання допомагають вивчати структуру сукупності, взаємозв'язок між явищами.

Для вивчення структури тієї чи іншої сукупності будують ряди розподілу. характеризують розподіл одиниць сукупності за однією ознакою.

Розподіл одиниць сукупності за кількісною ознакою називають варіаційним рядом.

Під час вивчення цієї теми треба приділити особливу увагу питанню побудови варіаційних рядів по дискретному і безперервному ознаками.

Дискретним називається ознака, який може приймати певні значення з кінцевого набору таких значень, які висловлюються тільки цілими числами (наприклад, число дітей у сім'ї, кількість легкових автомобілів в сім'ї та ін.).

Побудова дискретного варіаційного ряду рекомендується у випадках, коли кількість значень ознаки у вигляді цілих чисел невелика (зазвичай не більше 10).

Безперервний ознака в межах варіації може приймати будь-які значення, що відрізняються один від одного на як завгодно малу величину (наприклад, врожайність, вік і ін.). Як правило, при побудові варіаційних рядів по безперервному ознакою останній вказується у вигляді інтервалів «від і до» і ряд називається

Окремі значення группировочного ознаки називаються варіантами (позначаються x i), а числа, що показують, скільки раз зустрічається те чи інше значення ознаки, - частотами. якщо вони виражені а б с о л ю т н и м і величинами (позначаються m або f - від англійського frequency), або частості. якщо це

Ряди розподілу (варіаційні ряди) можуть бути побудовані по самим різним об'єктам. Так, про б ь е к т о м розподілу можуть служити і временни¿е періоди (місяці, роки), і територіальні одиниці.

Для наочності варіаційні ряди зображують графічно за допомогою полігону (переважно дискретні ряди) і гістограми (інтервальні ряди).

Для побудови полігону і гістограми використовується прямокутна система координат, на осі абсцис якої будується шкала значень варіантів (або їх інтервали), а на осі ординат - частот або частостей.

На рис. 1 показаний полігон розподілу 50 робочих за тарифним розрядом, побудований за даними завдання 2.1 для дискретного варіаційного ряду.

Для інтервального ряду будується гістограма розподілу. Вона являє собою ряд зімкнутих прямокутників, підставою яких служить величина інтервалів значень x i. а висотою - частота або частость.

На рис. 2 представлена гістограма, побудована за даними завдання 2.2 для інтервального варіаційного ряду з рівними інтервалами.

У разі н е р а в н и х інтервалів як висоти прямокутників приймається щільність розподілу - частка від ділення

частоти або частості кожного інтервалу на його величину y =

Відповідно і щільність розподілу буде абсолютною або відносною.

На рис. 3 зображена гістограма розподілу, побудована за даними останньої таблиці з урахуванням відносних густин розподілу. (Величину першого інтервалу приймаємо за 2, тобто 2-4, останнього - за 10, тобто 30-40.)

За нагромадженим частотах (частості) будуються кумулята і огива розподілу.

Мал. 1. Полігон розподілу

Мал. 2. Гістограма

розподілу 50 заводів

за тарифним розрядом

за вартістю основних фондів

Середньодушовий грошовий дохід в місяць, тис. Руб.

Для побудови кумуляти з верхньої межі кожного інтервалу на осі абсцис відновлюються перпендикуляри, відповідні по висоті накопиченої частоті (F i) або частості (p i) з початку ряду по даний інтервал, а потім послідовно (плавно) з'єднуються вершини перпендикулярів. Отримана крива називається кумуляти. Вона відображає характер наростання частот (або частостей) від групи до групи.

Мал. 4. Кумулята розподілу 50 заводів за вартістю основних фондів

Поряд з розподілом числа одиниць сукупності по какомулібо ознакою часто представляє інтерес і розподіл по цим же групам певного сумарного показника (y). Останнє може бути рівномірним (тобто відповідним розподілом числа одиниць) і нерівномірним (тобто сконцентрованим в окремих групах).

Для вивчення ступеня нерівномірності розподілу певного сумарного показника між одиницями окремих груп варіаційного ряду використовуються крива Лоренца (або крива концентрації) і розрахований на її основі коефіцієнт Джині (G), а також такі показники, як коефіцієнти Лоренца і Герфиндаля.

Розглянемо їх побудова на конкретному прикладі.

Нехай є наступні розподіл міст за кількістю жителів і розподіл населення по цих групах міст в одній з держав (графи 1, 2, 3 таблиці):

Побудуємо криву Лоренца для розподілу населення по виділених групах міст з різним числом жителів.

Слід мати на увазі, що для побудови кривої Лоренца і розподіл одиниць сукупності (числа міст), і розподіл сумарного показника (чисельності населення в містах) повинні бути представлені перш за все в відносних величинах, тобто в д о л я х або п р про ц е н т а х, а потім для обох розподілів розраховані н а к о п л е н н и е (кумулятивні) підсумки.

У нашому прикладі накопичені (кумулятивні) підсумки частостей (часток) міст у відсотках позначені як cum w i чи p i (графа 4), а часткою населення в них - як cum d y i або q i (графа 5). Символи p i для накопичених частостей числа одиниць сукупності і q i для накопичених часток розподіляється в них сумарного показника останнім часом все частіше зустрічаються в навчальній літературі.

Щоб графічно показати нерівномірність розподілу населення за окремими групами міст, будуємо квадрат 100 × 100 і на осі абсцис відкладаємо значення кумулятивних підсумків відсотка міст, а на осі ординат - значення кумулятивних підсумків відсотка чисельності населення в них. Для кожної пари значень кумулятивних підсумків знаходимо точку перетину на графіці, проводячи перпендикуляри до осей. Потім по точках перетину перпен-

дікуляров до осей вичерчуємо криву, яка і носить назву

кривої Лоренца (рис. 7).

Мал. 7. Крива Лоренца

Якби кожному відсотку накопичених (кумулятивних) частостей міст відповідав такий же відсоток населення в них, то всі крапки розташувалися б по діагоналі квадрата і це означало б рівномірний розподіл населення по виділених групах міст. Природно, чим більше фактичний розподіл двох показників відхиляється від рівномірного, тим більше крива Лоренца віддалена від діагоналі. Отже, чим більше це видалення (увігнутість), тим вище концентрація досліджуваного показника (в нашому прикладі - чисельності населення) в певних групах одиниць (в нашому прикладі - в великих містах).

Якщо значення ознаки в групах варіаційного ряду дані в порядку у б и в а н і я (від більшого до меншого), то побудована за такими даними крива Лоренца буде розташована вище діагоналі в формі в и п у к л о с т і.

Кілька кривих Лоренца, побудованих на одному квадраті, дозволяють порівнювати рівень концентрації досліджуваного показника в різний час або по різних об'єктах.

Для кількісного виміру рівня концентрації є ряд показників. Найбільш часто використовується для цієї мети так на-