Статистичні висновки - сторінка 3

Сторінка 3 з 4

Тепер, познайомившись зі статистикою як способом опису даних, ми готові звернутися до інтерпретації даних - до того, як з них роблять висновки.

Перш за все, необхідно розрізняти групу і вибірку з цієї групи. Бюро перепису Сполучених Штатів намагається описати населення в цілому шляхом отримання описового матеріалу за віком, сімейним станом і т. Д. Про всіх жителів країни. Слово група (population) годиться для бюро перепису, оскільки воно представляє всіх людей, що живуть в США.

У статистиці слово «група» не обмежена людьми, тваринами або предметами. Групою можуть бути всі величини температур, зареєстровані термометром протягом останнього десятиліття, все слова англійської мови або будь-який інший певний запас даних. Часто у нас немає доступу до всієї групі, і тоді ми намагаємося уявити її за вибіркою, взятої у випадковому
(Неупередженому) порядку. Можна задатися будь-яким питанням про випадково відібраної частини людей, як це зробило Бюро перепису в деяких недавніх переписах; можна вивести середню температуру, знімаючи показання термометра в певний час і не ведучи безперервного запису; можна оцінити кількість слів в енциклопедії, підрахувавши слова на випадково вибраних сторінках. У всіх цих прикладах робиться вибірка з групи. Якщо будь-які з цих процесів повторити, результати будуть злегка різні внаслідок того, що вибірка не повністю відображає групу в цілому і, отже, містить помилки вибірки. Саме тут вступають в гру статистичні висновки.

Вибірку даних з групи збирають, щоб зробити висновок про цю групу. Можна вивчити вибірку даних перепису, щоб дізнатися, чи старіє населення, наприклад, і чи існує тенденція міграції в приміські зони. Подібним чином, експериментальні результати вивчаються, щоб визначити, який вплив експериментальні маніпуляції надали на поведінку - чи вплинула гучність на поріг сприйняття висоти звуку, або надають чи особливості виховання істотний вплив на подальше життя. Щоб робити статистичні висновки, треба оцінити відносини, на які вказують дані вибірки. Такі висновки завжди мають деяку ступінь невизначеності через помилки вибірки. Якщо статистичні випробування показують, що величина ефекту, виявлена в даній вибірці, досить велика (щодо оцінки помилки вибірки), то можна бути впевненим, що спостережуваний в даній вибірці ефект існує і у групи в цілому.

Таким чином, статистичний висновок пов'язаний з необхідністю зробити висновок або судження щодо деякої характеристики групи, грунтуючись тільки на інформації, отриманої про вибірку з цієї групи. Як знайомства зі статистичними висновком ми розглянемо нормальний розподіл і його застосування при інтерпретації стандартного відхилення.

Коли велика кількість даних збирають, представляють в табличному вигляді і відображають в гістограмі обвідної, вони часто утворюють дзвіноподібний симетричний розподіл, відоме як нормальний розподіл. Більшість його елементів розташовуються поблизу середнього (верхня точка дзвони), і цей дзвін різко спадає у найбільшій і у найменшій величини. Така форма кривої представляє особливий інтерес, оскільки вона виникає і тоді, коли результат процесу заснований на безлічі випадкових подій, всі з яких відбуваються незалежно. Демонстраційне пристрій, показане на рис. П4, дозволяє побачити, як з випадкових подій складається нормальний розподіл. Випадковий фактор - чи впаде сталева кулька вліво або вправо кожен раз, коли він потрапляє в розвилку, - наводить до симетричного розподілу: більше кульок падають прямо посередині, але час від часу один з них досягає одного з крайніх відділень. Це зручна візуалізація того, що мається на увазі під випадковим розподілом, близьким до нормального розподілу.

Мал. П4. Пристрій для демонстрації нормального розподілу випадкової величини.
Пристрій тримають догори ногами, поки все сталеві кульки не скотитися в резервуар. потім
пристрій перевертають і тримають вертикально, поки кульки, пройшовши по полю зі штирями, що не скотяться в 9 колонок-виїмок внизу. Точна кількість кульок, які потрапили в кожну колонку, в різних демонстраціях буде неоднаковим. Однак в середньому висота колонок з кульок буде приблизно повторювати нормальний розподіл, коли найвища колонка буде в центрі, а висоти інших колонок будуть знижуватися в напрямку до країв.

Нормальний розподіл (рис. П5) - це математичне уявлення ідеалізована розподілу, наближено створюваного пристроєм, показаним на рис. П4. Нормальний розподіл показує ймовірність того, що елементи в групі з нормальним розподілом будуть відрізнятися від середнього на будь-яку задану величину. У відсотках на рис. П5 показана частка площі, що лежить під кривою між зазначеними величинами шкали; загальна площа під кривою відповідає групі в цілому. Приблизно дві третини всіх випадків (68%) потрапляють в інтервал між плюс і мінус одним стандартним відхиленням від середнього (± 1g); 95% всіх випадків - в інтервал ± 2G; і практично всі випадки (99,7%) - в ± 3G.

Мал. П5. Нормальний розподіл. Криву нормального розподілу можна побудувати, використовуючи стандартне відхилення і середнє. Площею під кривою, що лівіше -3а і правіше + 3а, можна знехтувати.

Більш докладний список площ під частинами кривої нормального розподілу наведено в табл. П4.

Давайте за допомогою табл. П4 простежимо, як виходять величини 68% і 95%, показані на рис. П5. У табл. П4 в третій колонці знаходимо, що між -1g і середнім лежить 0,341 загальної площі і між + 1о і середнім теж 0,341 загальної площі. У сумі ці величини дають 0,682, що на рис. П5 показано як 68%. Подібним чином площа від -2о до + 2о складе 2 х 0,477 = 0,954, показані як 95%.

Щоб інтерпретувати показник, часто потрібно знати, високий він або низький по відношенню до інших показників. Якщо людині, що здає водійський іспит, потрібно 0,500 сек, щоб натиснути на гальмо після сигналу небезпеки, як визначити, швидко це або повільно? Чи вважати, що студент здав курс з фізики, якщо його показник на іспиті дорівнює 60? Для відповіді на такі питання треба вивести шкалу, з якою ці показники можна порівнювати.

Ранжування даних. Маючи в своєму розпорядженні показники за рангом від високого до низького, ми отримуємо одну з таких шкал. Окремий показник інтерпретується по тому, на якому місці він знаходиться серед групи показників. Наприклад, курсанти військової академії Вест Пойнт знають, де вони знаходяться в своєму класі - можливо, 35-ми або 125-ми в класі з 400.

Стандартний показник. Стандартне відхилення - зручна одиниця шкалювання, оскільки ми можемо оцінити, наскільки далеко від середнього розташовуються 1о або 2о (табл. П4). Величину твори, в якому один співмножник - стандартне відхилення, називають стандартним показником. Багато шкали, застосовувані в психологічних вимірах, засновані на принципі стандартного показника.

Приклад обчислення стандартного показника. У табл. П1 наведені показники, отримані 15 студентами на вступних іспитах. Не маючи додаткової інформації, ми не знаємо, чи є ці показники репрезентативними для групи всіх надходили. Однак припустимо, що середній показник на цих іспитах був 75, а стандартне відхилення 10.

Яким же буде стандартний показник у студента, який набрав на іспитах 90 балів? Наскільки вище середнього лежить цей показник, треба висловити в кількості стандартних відхилень:

В цьому випадку показник учня лежить нижче середнього на 2,2 стандартних відхилення. Таким чином, знак стандартного показника (+ або -) говорить про те, вище або нижче середнього знаходиться даний показник, а його величина показує, наскільки далеко від середнього він розташований в одиницях стандартних відхилень.

Наскільки репрезентативно середнє?

Наскільки добре середнє вибірки відображає середню всієї групи? Якщо вимірювати зріст у випадкової вибірки з 100 студентів коледжу, наскільки добре середнє цієї вибірки передбачає справжнє середнє групи (тобто середнє зростання всіх студентів коледжу)? Це все питання, пов'язані з виведенням про групу на основі даних вибірки.

Точність такого висновку залежить від помилок вибірки. Припустимо, ми зробили дві випадкових вибірки з однієї і тієї ж групи і для кожної з них підрахували середнє. Якого відмінності між одним і іншим середнім можна очікувати в результаті випадку?

Наступні випадкові вибірки з тієї ж групи будуть давати різні середні, утворюючи розподіл вибірки середніх навколо істинного середнього даної групи. Ці вибірки середніх самі по собі є величинами, для яких можна підрахувати стандартне відхилення. Це стандартне відхилення називається стандартною помилкою середнього; воно позначається sM і обчислюється за такою формулою:

де про - стандартне відхилення вибірки, а N - кількість випадків, за якими обчислюється кожне середнє.

Відповідно до цієї формули, величина стандартної помилки середнього зменшується зі збільшенням величини вибірки; тому середнє, засноване на більшій вибірці, є більш достовірним (воно швидше виявиться ближче до істинного середньому всієї групи). Цього можна було очікувати і на основі здорового глузду. Стандартна похибка середнього ясно показує, наскільки невизначено отримане середнє. Чим більше обсяг вибірки, тим менше невизначеність середнього.

У багатьох психологічних експериментах дані збираються за двома групами випробовуваних; одна група піддається специфічним експериментальним впливам, а інша служить контрольної. Питання в тому, чи існує відмінність між середніми показниками цих груп, і якщо є, то витримується воно для всієї групи, з якої були взяті ці дві вибірки. Простіше кажучи, чи відображає відмінність між двома групами справжнє відмінність або воно виникло внаслідок помилки вибірки.

Як приклад можна порівняти показники іспиту з читання у вибірки хлопчиків першокласників з показниками у вибірки дівчаток-першокласниць. Що стосується середніх показників, то вони у хлопчиків нижче, але тут є значне перекриття; деякі хлопчики справляються виключно добре, а деякі дівчатка - вкрай погано. Тому ми не можемо прийняти цю відмінність середніх, не провівши тест на статистичну значущість. Тільки тоді можна буде вирішити, чи відображають спостерігаються відмінності в вибірці справжні відмінності в групі або ж вони пояснюються помилкою вибірки. Якщо деякі більш обдаровані дівчинки і деякі більш тупі хлопчики виявилися обрані по чистій випадковості, то відмінність можна пояснити помилкою вибірки.

В якості ще одного прикладу припустимо, що ми провели експеримент в порівнянні фортеці рукостискання у чоловіків правшів і лівшів. У верхній частині табл. П5 показані гіпотетичні дані такого експерименту. Вибірка з 5 чоловіків-правшів в середньому на 8 кг сильніше вибірки з 5 чоловіків лівшів. Що взагалі можна вивести з таких даних про чоловіків лівшів і правша? Чи можна стверджувати, що правші сильніше? Очевидно, немає, оскільки середнє, отримане у більшості правшів, не відрізнялося б від середнього у більшості лівшів; один примітно відрізняється показник величиною 100 говорить про те, що ми маємо справу з невизначеною ситуацією.

Два приклади, що показують розходження між середніми. Різниця середніх однакова (8 кг) у верхній і нижній частині таблиці. Однак, дані нижній частині вказують на більш надійне відмінність середніх, ніж дані в верхній частині таблиці.

Тепер припустимо, що в результаті експерименту отримані результати, показані в нижній частині тієї ж табл. П5. Ми знову бачимо те ж саме відмінність середніх, рівне 8 кг, але тепер ці дані викликають більшу довіру, оскільки показники у лівшів вийшли систематично нижче, ніж у правшів. Статистика дозволяє дуже точно врахувати надійність відмінностей середнього, так щоб при визначенні, яке з двох відмінностей більш надійно, не залежати тільки від інтуїції.

Ці приклади показують, що значимість отриманого відмінності залежить і від його величини, і від варійованих порівнюваних середніх. Знаючи стандартну помилку середнього, можна обчислити стандартну помилку відмінності між двома середніми оDм. Потім можна оцінити отримане відмінність за допомогою критичного ставлення - ставлення отриманої різниці середніх (DM) до стандартної помилку відмінності між середніми:

Це відношення дозволяє оцінити значимість відмінності між двома середніми. Як найпростіше правило, критичне ставлення має бути не менше 2,0, щоб різниця середніх вважалася значущою. У всій цій книзі вираз про «статистичної значущості» різниці середніх означає, що критичне ставлення у них не менше такого.

Чому в якості статистично значущої вибрано критичне ставлення, рівне 2.0? Просто тому, що така або велика величина може випасти випадково тільки в 5% випадків. Звідки взялися ці 5%? Критичне ставлення можна вважати стандартним показником, оскільки це просто різниця двох середніх, виражена в числі стандартних помилок. Звертаючись до 2-й колонці табл. П4, помічаємо, що ймовірність того, що стандартне відхилення становить 2,0 при випадковому збігу, дорівнює 0,023. Оскільки ймовірність відхилення в протилежну сторону теж дорівнює 0,023, загальна ймовірність складе 0,046. Це означає що коли середні груп однакові, критичне ставлення може випадково виявитися рівним 2,0 (або більше) в 46 випадках з 1000, або в 5% випадків.

Елементарне правило, яке говорить, що критичне ставлення має бути не менше 2,0, саме таке - це довільне, але зручне правило, що задає 5% -вий рівень значимості. Слідуючи цьому правилу, ймовірність помилкового рішення про те, що різниця середніх існує, тоді як насправді це не так, буде менше 5%. Не обов'язково користуватися 5% -ним рівнем; в деяких експериментах може знадобитися більш висока значимість, в залежності від того, наскільки допустима помилка ув'язнення.

Приклад обчислення критичного ставлення. Для обчислення критичного ставлення треба визначити стандартну помилку різниці двох середніх за такою формулою:

У цій формулі ОМ1 і ОМ2 - стандартні помилки двох порівнюваних середніх.

В якості ілюстрації припустимо, що нам треба порівняти досягнення першокласників - хлопчиків і дівчаток на іспиті з читання в США. Береться випадкова вибірка хлопчиків і дівчаток і піддається тестуванню. Припустимо, що середній показник у хлопчиків дорівнює 70 при стандартній помилку середнього 0,40, а середній показник у дівчаток - 72 при стандартній помилку середнього 0,30. На основі цих вибірок треба вирішити, чи є це реальне відмінність між успіхами хлопчиків та дівчаток в читанні в групі в цілому, Дані вибірки показують, що оцінки у дівчаток більше, ніж у хлопчиків, але чи можна зробити висновок, що ми отримали б те ж саме , протестувавши всіх першокласників США? Вирішити це дозволяє критичне ставлення.

Оскільки критичне ставлення значно вище 2,0, можна стверджувати, що спостерігається середнє розходження статистично значимо на 5% -му рівні. Тому можна зробити висновок, що між хлопчиками і дівчатками існує надійне відмінність в успіхах з читання. Зауважте, що критичне ставлення може бути позитивним і негативним, залежно від того, який середній з якого вираховується; при інтерпретації критичного ставлення враховується тільки його величина, але не знак.