Методи ймовірнісної (випадкової) вибірки

Випадкова (імовірнісна) вибірка - це вибірка, для якої кожен елемент генеральної сукупності має певну, заздалегідь задану ймовірність бути відібраним. Це дозволяє досліднику розрахувати, наскільки правильно вибірка відображає генеральну сукупність, з якої вона виділена (спроектована). Таку вибірку іноді називають ще випадковою.

Імовірнісні методи включають:
♦ простий випадковий відбір,
♦ систематичний відбір,
♦ кластерний відбір,
♦ стратифікований відбір.

Простий випадковий відбір
Простий випадковий відбір передбачає, що ймовірність бути включеним у вибірку відома і є однаковою для всіх одиниць сукупності. Він реалізується двома методами:
♦ відбір наосліп (інша назва - метод лотереї або жереба),
♦ добір не наосліп (відбувається за допомогою таблиці випадкових чисел).

Отже, в одному випадку ви здійснюєте свій вибір не дивлячись, в іншому - все усвідомлюючи, але для того, щоб самому не втрутитися і нічого не зіпсувати, звертаєтеся до спеціальних таблицях.

Крім того, простий випадковий відбір підрозділяється на два різновиди вже за іншим критерієм, а саме - повернення або неповернення лотерейного кулі (замість нього може бути прізвище респондента) назад в корзину. У цьому випадку виділяють:
♦ випадковий повторний (з поверненням) відбір,
♦ випадковий бесповторний (без повернення) відбір.

У чому подібність і відмінність двох класифікацій? У першому випадку - наосліп / НЕ наосліп - вчений міг дивитися на те, як здійснюється відбір, хоча ніяк не міг йому перешкодити (якщо відбір проводився наосліп), або вибір здійснювали не його руки, виймають з кошика куля, а таблиця випадкових чисел. У другому випадку - повторний / бесповторний - справа полягає не в дослідника (якщо відбір проводився не наосліп), а в лотерейному кулі: його або повертають для нового вибору, або не повертають і продовжують процес без нього.

Поєднавши обидва розчленовування простого випадкового методу в декартову систему координат, отримаємо чотири модальності.

Пропонована схема виконує швидше мнемонічну функцію, допомагаючи краще запам'ятати матеріал. Можна також вважати, що вона має демонстративний сенс, але ніяк не логічний. Вона придумана для того, щоб внести якусь ясність в типологію різновидів простого випадкового відбору.

Вірогідну вибірку доцільно застосовувати тільки при наявності відповідних умов. Перша умова здійснення ймовірнісної вибірки - наявність повного списку всіх елементів генеральної сукупності (відсутність або недоступність якого найчастіше і перешкоджає її реалізації) від 1 до N, де N - загальне число всіх елементів. Якщо ж він є, то проводиться нумерація, після чого можна використовувати вищеописані методики. При використанні лотерейного методу (або методу жереба) жетони з номерами всіх елементів поміщають в урну, ретельно перемішують і витягують послідовно п жетонів, де n - число елементів вибіркової сукупності. Елементи генеральної сукупності, які мають номери, які опинилися на витягнутих жетонах, становитимуть вибіркову сукупність. Це досить трудомістка і тривала (при великих розмірах вибірки) операція, до того ж досить трудомістка, оскільки «для забезпечення рівного шансу вибору потрібне ретельне перемішування жетонів» після кожної виїмки чергового номера.

Друга умова ймовірнісної вибірки - хороша перемешанность елементів генеральної сукупності. Якщо вибірка елементів проводиться з ящика, то його вміст слід ретельно перемішати і вже після цього брати картки випадковим чином. Тільки при таких умовах всі вони мають однакову ймовірність потрапити до вибірки. Часто для освіти випадкової вибірки елементи генеральної сукупності попередньо нумеруються, а кожен номер записується на окремій картці. В результаті виходить пачка карток, число яких збігається з обсягом генеральної сукупності. Після ретельного перемішування з цієї пачки беруть по одній картці. Об'єкт (респондент), який має однаковий номер з карткою, вважається потрапили у вибірку. При цьому можливі два принципово різних способу утворення вибіркової сукупності.

Перший - вийнята картка після фіксації її номера повертається в пачку, після чого картки знову ретельно перемішуються. Повторюючи такі вибірки по одній картці, можна утворити вибіркову сукупність будь-якого обсягу. Вибіркова сукупність, утворена за такою схемою, отримала назву випадкової поворотної вибірки.

Другий-кожна вийнята картка після її запису назад не повертається. Повторюючи за такою схемою вибірки по одній карточ-ке, можна отримати вибіркову сукупність будь-якого заданого обсягу. Вибіркову сукупність, утворену за даною схемою називають випадковою безповоротної вибіркою. Вона можлива лише в тому випадку, якщо з ретельно перемішаної пачки відразу беруть необхідну кількість карток.

Зауважимо, що різниця між випадковими вибірками з повер-те і без повернення стирається, якщо вони складають незначний-ву частина великої генеральної сукупності.

Однак при великому обсязі генеральної сукупності цей метод виявляється дуже трудомістким, і тому набагато зручніше користуватися таблицею випадкових чисел. Вона довела свою еф-ність при формуванні равновероятностних вибірки з великих сукупностей.

Систематичний відбір є другим за наукову значимість, але першим за популярністю вживання видом простого випадкового відбору. Його називають ще механічним добором і вважають спрощеним варіантом простого випадкового відбору.

Прикладом служать різного роду квартирні вибірки: вибираються вулиці, на яких інтерв'юер проводить квартирний опитування. Квартири вибираються за певною схемою (крайня квартира праворуч від сходів на останньому поверсі першого під'їзду і т.д.).

де N - чисельність генеральної сукупності, n - чисельність вибіркової сукупності.

Таким чином, крок вибірки, а його ще називають «інтервалом стрибка» або просто «інтервалом», - це математичний показник, розрахований як відношення обсягу генеральної сукупності до обсягу вибірки. Він показує, скільки номерів в списку прізвищ людей, які увійшли в генеральну сукупність, треба пропустити (через скільки переступити), щоб в результаті отримати список вибіркової сукупності. Буквально крок вибірки озная чає відстань між сусідніми прізвищами респондентів, з вимірюванням кількістю вибракуваних прізвищ зі списку генеральної сукупності.

Інший приклад. Припустимо, що нам потрібно спроектувати вибірку чисельністю 100 зі списку 5000 студентів якогось вузу. Якщо ми маємо намір використовувати систематичну вибірку, то повинні спочатку розрахувати інтервал вибірки розподілом числа елементів в списку на розмір вибірки. В даному випадку, розділивши 5000 імен на необхідний розмір вибірки 100 од. ми отримаємо інтервал (крок) вибірки 50. Так що ми будемо систематично рухатися за списком і відбирати кожного п'ятдесятого студента (відібравши таким чином 100 імен). Визначення того місця в списку, з якого ми почнемо, проводиться випадковим чином, за таблицею випадкових чисел (це називається випадковим стартом). Таким чином, якщо випадково обрана точка старту під номером 31, то у вибірку будуть включені студенти, які стоять під номерами 31, 81, 131, 181 і т.д.

Отже, в основу систематичної вибірки покладені не імовірнісні процедури, а алфавітні списки, картотеки, схеми, які забезпечують равновероятное потрапляння у вибірку всіх одиниць генеральної сукупності.

Незважаючи на свої переваги, систематична вибірка може іноді мати своїм результатом упереджену вибірку. Така ситуація виникає, наприклад, коли елементи розміщені в списку, ранжируваному з якихось характеристикам. У цій ситуації визначення місця початку випадкового відбору буде впливати на середні характеристики всієї вибірки. Наприклад, якщо студенти розставлені в списку відповідно до середнього оцінним балом від вищого до нижчого, систематична вибірка, що включає студентів, що стоять в списку під номерами 1,51,101, матиме нижчий середній бал, ніж вибірка, що включає студентів під номерами 50, 100 і 150. Кожна нова вибірка буде давати інший середній бал, який представляє собою упереджену картину студентської популяції.

Районована і стратифікована вибірки
Якщо генеральна сукупність велика, а таке в емпіричному дослідженні трапляється дуже часто, то доводиться розділяти обследуемую сукупність на більш-менш однорідні частини, а потім здійснювати відбір одиниць всередині цих частин. Таку роздроблену на частини вибірку найправильніше було б називати расслоенной. Однак в українській мові подібний термін утвердився, мабуть, як не відповідає нормам правильної вимови.

Оскільки у вітчизняній соціології дуже багато іноземних слів - і це правильно з точки зору уніфікації наукової термінології, приведення її до міжнародних стандартів, - то слова «розщеплену» спробували знайти еквівалент. У числі претендентів виявилися дві найкращі кандидатури, а саме терміни «районована» і «стратифікована».

У цьому визначенні вихідне поняття «районована вибірка» без шкоди для справи можна замінити на «стратифіковану вибірку». Таким чином, однаково правильно буде як розділяти одну вибірку на дві самостійні різновиди, районованих і стратифіковану, так і подавати їх як єдине ціле. За єдність двох прийомів виступає практика соціологічних досліджень. Виявляється, в великомасштабних проектах соціологи починають з районированной вибірки, а потім переходять на стратифіковану. Так, наприклад, в обстеженнях Центру «Соціо-Експрес» Інституту соціології РАН в основі побудови районированной вибірки лежать десять економіко-географічних зон, в кожній з яких виділяються великі міста (чисельністю понад 500 тис. Населення), середні міста (50-500 тис .), малі міста (до 50 тис.) або селища міського типу, а також сільські населені пункти. Усередині відібраних міст респондентів відбирають випадковим методом. Репрезентативність контролюється по регіональним пропорціям чисельності населення, пропорціям між міським і сільським населенням, пропорціям між населенням зазначених типів населених пунктів.

У міжнародній практиці не використовується російське слово «район» як географічна зона (ареал, регіон, частина території), тому тут не зустрінеш і терміна «районована вибірка». Замість нього вживають термін «стратифікована вибірка», маючи на увазі, що, розбиваючи єдине ціле на частини, не обов'язково точно вказувати, що вони собою представляють - групи або райони.

В такому випадку стратифікована вибірка (stratified sampling) - імовірнісна вибірка, що забезпечує рівномірний представництво в вибіркової сукупності різних частин, типів, груп і прошарків населення.

Треба враховувати й інший нюанс. Справа в тому, що в зарубіжних словниках, перш за все американських і головним чином провідних, все, що пов'язано з територіальною ознакою, в тому числі і розшарування по районам, відноситься до квотною вибіркою. Наприклад, в знаменитому Оксфордському словнику соціології на термін «stratified sampling» варто відсилання: см. Sampling. Відкриваємо с. 576-577 і Новомосковський про те, що в разі стратифікованою ймовірнісної

Повертаючись від лінгвістичних тонкощів до методичним, підкреслимо ось ще що: відбір одиниць, який може носити як випадковий, так і спрямований характер, проводиться незалежно з кожного шару або району, тому районованих-стратифікована вибірка (якщо можна так висловитися) рівносильна ряду вибірок, витягнутих з менших сукупностей-страт (районів).

Стратифікована випадкова вибірка (у вузькому значенні) заснована на вибірці з кожної стратегії окремо. Це підвищує точність результатів або зменшує час, сили і вартість дослідження, допускаючи менші розміри вибірки при заданому рівні точності. Наприклад, відомо, що бідність найбільш часто зустрічається серед літніх, безробітних і в монородітельскіх сім'ях. Досліджуючи проблеми бідності, можна з рівним успіхом вибрати в якості об'єкта будь-яку з трьох страт. У відібраних районах або стратах вибір одиниць обстеження проводиться за імовірнісним методом.

Основна мета будь-якого розшарування - підвищення точності вибіркових оцінок. Шари виділяються таким чином, щоб дисперсія досліджуваних змінних всередині шарів була значно менше, ніж між ними. При розшаруванні варіація між шарами не входить в середню помилку вибірки, а компенсується самою процедурою виділення шарів. Тому розшарування дозволяє домогтися більш високого ступеня точності оцінок у порівнянні з простим випадковим відбором. Якщо кожен шар являє собою статистично однорідну групу, то для будь-якого з них навіть вибірка малого обсягу дозволить отримати досить точні оцінки, які, будучи об'єднані, дадуть хорошу оцінку для всієї сукупності.

Розрізняють стратифікацію одновимірну і багатовимірну в залежності від того, один або кілька ознак покладені в основу поділу сукупності. Ці ознаки повинні мати тісний зв'язок з досліджуваними змінними, від їх вибору у високій мірі залежить ефективність розшарування.

гніздова вибірка
Протилежність районированной і стратифікованої вибірці становить гніздовий вибірка.

Гніздова вибірка - вид вибірки, при якому відбираються об'єкти представляють собою групи або гнізда (кластери) дрібніших одиниць. Гніздом називають одиницю відбору вищого ступеня, що складається з більш дрібних одиниць нижчому щаблі. До вибірки можуть бути включені як всі одиниці нижчого рівня, так і їх частина. Число одиниць, які базують гніздо, називають його розміром.

Як гнізд виступають населені пункти, райони, будинки, під'їзди, підприємства, цехи, бригади.

Гніздовий відбір володіє великими організаційними перевагами - простіше здійснювати відбір і обстеження декількох компактних груп, ніж десятків або сотень окремих одиниць. Технічні переваги гніздового відбору особливо відчутні при побудові територіальної вибірки. Відбір невеликого числа територіальних сегментів (населених пунктів, районів, житлових кварталів і т.п.), потім вибірковий або суцільний опитування проживає в них населення істотно зменшують вартість дослідження і терміни проведення.

Процедурно такий метод застосувати легше, ніж імовірнісний або районований. Проблеми, які виникають тут, пов'язані з визначенням величини гнізда, кількістю гнізд, які треба обстежити, їх розміщенням в генеральної сукупності.

Основні рекомендації при виборі гнізд зводяться до того, щоб відмінності між гніздами були б по можливості більш неоднорідними. Це правило прямо протилежно основному принципу розшарування, відповідно до якого виграш в точності тим більше, чим більш однорідними будуть виділені шари. Інша рекомендація стосується вибору розміру гнізд: велике число малих гнізд краще малого числа великих.