Статистична похибка результатів і культура представлення даних в маркетингу, лабораторія
Маркетинг дляУкаіни - порівняно нова прикладна наука. Тут, в основному, працюють представники «суміжних» професій - соціологи, психологи, економісти і т.д.
Змішання професійних культур гальмує розвиток власної культури проведення маркетингових досліджень (надалі - МІ) і подання їх результатів, на підставі яких замовник досліджень повинен приймати рішення і вести свій бізнес.
Розглянемо окремий питання про статистичну похибку кількісних МІ і про те, як в зв'язку з наявністю даної похибки доцільно представляти результати.
Проводячи кількісні (або статистичні) вимірювання різних параметрів ринку, дослідник отримує конкретні результати, виражені в цифрах, - відсотки, рейтинги і т.д. Дані цифри, оформлені у вигляді системи таблиць, графіків і т.п. супроводжувалися висновками і рекомендаціями, надаються замовнику.
Тут є одна проблема, швидше за все не відома замовнику, але про яку дослідник повинен знати.
Всі представлені в звіті цифри - є тільки оцінка вимірюваного параметра, зроблена дослідником на підставі проведених статистичних вимірювань. Оцінка в принципі не точна, хоча б тому, що має т.зв. «Статистичну похибку» (в принципі дані можуть мати інші види похибки, наприклад, пов'язані з помилками дослідника при проектуванні і організації самого процесу дослідження, неправильної постановки завдання і т.д. Ми їх тут не розглядаємо).
Іншими словами, надані цифри мають свої%.
Природно, чим більше величини вибірки статистичних вимірювань, тим менше статистична похибка.
Дослідник є професіоналом, тому, швидше за все, знає про величину статистичної похибки в представлених замовнику даних. Дослідник в звіті вказує, як правило, величину статистичної похибки.
Але замовник може і не знати, що означає зазначена дослідником в звіті статистична похибка, а головне, що з цієї похибкою робити, як її враховувати при проектуванні своєї подальшої діяльності.
Нижче розглянемо два основних питання:
- Статистичні похибки вимірювань. (В основному, для професіоналів).
- Як коректно представляти замовнику кількісні дані за наявної статистичної похибки.
Приклад. Фрагмент звіту за статистикою захворюваності населення Москви.
Питання: «Ви хворіли на грип останнім часом?»
При проведенні опитування відповіді розподілилися наступним чином (в абсолютних цифрах):
Хворіли на грип протягом останніх.
Величина статистичних похибок
Припустимо, ми хочемо оцінити якийсь параметр р ринку. З цією метою ми проводимо статистичне вимір на вибірці n.
Відзначимо, що число р є абсолютно точне значення шуканого параметра, яке нам невідомо і не може бути відомо в принципі, але яке нам треба оцінити методом статистичних вимірювань.
Довірча ймовірність і відповідний їй інтервал
Проводячи статистичне вимір, ми можемо отримати оцінку р * нашого шуканого параметра р.
Наша оцінка р * буде знаходитися десь поблизу істинного значення параметра р. і, швидше за все, не буде точно дорівнює р.
Розподіл можливих значень оцінок значення шуканого параметра f (p *). підпорядковується, в загальному випадку, нормальному (гауссова) закону - рис.1.
рис.1.
Тут = 3,14159.
- т.зв. середньоквадратичне відхилення (СКО), величина, залежна від обсягу вибірки n. чим більше вибірка, тим менше відхилення.
Площа, обмежена кривою Гаусса і горизонтальною віссю, дорівнює 1.
Розглянемо відсоток А% площі під кривою поблизу р в межах від р-х до р + х. (Рис. 2)
З ймовірністю А% отримана оцінка р * буде перебувати в межах від р-х до р + х.
Імовірність А% називають довірчою ймовірністю. Кажуть: з ймовірністю А% наша оцінка р * буде перебувати в інтервалі між нижньою межею р-х і верхньою межею р + х поблизу р.
Або скорочено - «р% х».
Прийнята стандартна величина довірчої ймовірності А = 95%. в цьому випадку наш інтервал матиме кордону% 2 поблизу р. Або - р% 2 (рис.3).
правдоподібність
У попередньому розділі питання стояло про те, де поблизу істинного значення параметра р може перебувати наша оцінка р *.
В житті - навпаки. Ми не знаємо істинного значення р. але, провівши статистичні вимірювання, знаходимо оцінку р *.
Питання про похибки нашої оцінки ставиться таким чином: який той інтервал поблизу р *. де може перебувати (з ймовірністю А%) істинне значення параметра р?
Іншими словами, р% скільки? при даній вибірці n.
Розглянемо це питання.
Отже, ми маємо оцінку р *. Ми маємо право висунути гіпотезу: «справжнє значення параметра р є р1 (рис. 4)», або гіпотезу: «справжнє значення параметра р є р2», або «істинне значення параметра р є р3», див рис.4.
Правдоподібності гіпотези щодо істинного значення параметра р одно умовної ймовірності того, що ми отримаємо оцінку р *. якщо насправді істинне значення параметра дорівнює р.
Іншими словами, ми припускаємо, що знаємо параметр р (умова). І ми дивимося, яка умовна ймовірність появи оцінки р *:
Реально значення р нам не відомо. Ми припускаємо (висуваємо гіпотезу), що, припустимо, воно дорівнює р1. Нагадаю, ми, провівши статистичні вимірювання, отримали число р * в якості оцінки параметра р.
Умовна ймовірність при гіпотетичному значенні р1 появи нашої оцінки р *. іншими словами, правдоподібність гіпотези р1. іншими словами, W (p * | p), є - рис.5.
Строго кажучи, ймовірність є площа під кривою рис.5. тому ймовірність отримання даної конкретної оцінки р * при гіпотезі р1 є нескінченно мале число.
Але це число все-таки менше, ніж ймовірність отримання нашої оцінки р *. якщо ми приймемо гіпотезу р3 = р *. (Рис.6)
Зручно використовувати відношення правдоподібності.
За умови, що в чисельнику і в знаменнику дробу нескінченно малі величини, відношення правдоподібності є конкретна ненульова величина, що робить відношення правдоподібності досить практичним для вирішення багатьох завдань.
У нашому випадку найбільш правдоподібною буде гіпотеза, що справжнє значення параметра р одно нашою оцінкою р *. Однак досить правдоподібною виглядає гіпотеза, що справжнє, але невідоме нам, значення параметра р трохи більше, або трохи менше ніж р *.
- Знайти чисельне значення кордону відношення правдоподібності. Якщо відношення правдоподібності для даної гіпотези менше цього числа, гіпотеза вважається досить правдоподібною, якщо більше - малоправдоподібним.
- На підставі відношення правдоподібності визначити інтервал статистичної похибки оцінки р * при даній вибірці.
- Визначимо граничні значення відношення правдоподібності для стандартної довірчої ймовірності А = 95%. (Рис.2)
Граничного відношенню правдоподібності відповідають межі інтервалу поблизу р *. (Назвемо їх ргр), верхня і нижня, які і визначають інтервал статистичної точності нашої оцінки р *.
Граничне відношення правдоподібності
Правдоподібність при ргр. W (p * | p = ргр)
Граничне відношення правдоподібності (для А = 95%):
Отже, для інтервалу, в межах якого, поблизу р *. в умовах довірчої ймовірності А = 95%. може знаходитися справжнє значення параметра р. іншими словами - для інтервалу похибки статистичних вимірювань характерно наступне правило:
На кордонах даного інтервалу відношення правдоподібності одно 7,4; всередині інтервалу - менше, поза - більше, ніж 7,4.
Обчислення інтервалів похибки
Обсяг вибірки, нагадаю, n.
Припустимо, r з них підходять під умови параметра.
Якщо досліджуваний параметр р чимала величина, тобто в межах 5-95%, можливі значення оцінок р * підкоряються біноміальному закону. Межі інтервалу статистичної похибки знаходимо з рівняння:
Вирішуючи рівняння чисельним методом, обчислюємо межі інтервалів статистичної похибки для кожного значення р *. лежачого в межах 5-95%, для різних значень n.
Якщо досліджуваний параметр р малий, лежить в межах до 5%, то можна застосувати закон Пуассона:
Результати розрахунків верхньої і нижньої меж інтервалів статистичної похибки для різних значень оцінок р * при різних вибірках n представлені нижче у вигляді графіків на рис. 8.
1. На графіках представлено інтервал можливих значень р * від 0% до 50% для економії місця. Графіки симетричні щодо лінії 50%.
Похибка оцінки (верхня і нижня межі інтервалів), скажімо, для р * = 60% дорівнює похибки (відповідно, нижньої і верхньої меж інтервалів) оцінки р * = 40%.
2.Чем менше оцінка р *. тим менше похибка статистичних вимірювань. Максимальна похибка вимірювань буде при оцінках в районі 50%. При подальшому збільшенні значення оцінки похибка статистичних вимірювань знову зменшується.
3. Інтервал похибки несиметричний. Наприклад, при обсязі вибірки n = 100 і вийшла оцінці параметра р * = 30% інтервал похибки буде від 30-8% до 30 + 9%.
Приклад. (Продовження)
У таблиці, наведеної раніше, додамо стовпці, в яких:
- Результати розрахунку відносної частоти приводяться відповідей, виражених в% за формулою (1), округлені до першої цифри після коми.
- Межі інтервалу похибки для кожної цифри (на підставі графіків рис.8.).
- Величини інтервалу похибки.
Хворіли на грип протягом останніх.
Відзначимо наступні факти:
- Статистична похибка зазначених вимірювань (з вибіркою 401) така, що може однозначно виявити відмінності між частотами відповідей «2 тижні», «1 місяць» і «2 місяці». Межі інтервалів похибки для зазначених відповідей не перетинаються.
- Статистична похибка вимірювань не може однозначно визначити відмінностей в частоті відповідей «1 місяць», «3 місяці» і «півроку».
Іншими словами, на підставі представлених даних, можна зробити висновок що «тих, хто хворів на грип в останні 3 місяці більше, ніж тих, хто хворів на грип в останній 1 місяць». Але цей висновок буде недостовірний.
Похибка вимірювань і представлення результатів
На практиці часто трапляється, що обсяг вибірки - не круглий число, при обчисленні оцінки параметра р * за формулою:
цілком може виявитися, що оцінка р * буде не дуже «зручна»:
Як коректно округлити результат?
Розглянемо, як завдання округлення результатів вирішують інженери.
Припустимо, при вимірюванні нікого напруги в якійсь мережі, наявний вольтметр показав результат: 36,3 В
Однак будь-який прилад недосконалий, тобто його показання неточні, мають похибки. Величина похибки приладу звичайно вказується в його паспорті і на панелі.
Якщо наш вольтметр має похибка + -1 В, то в протокол вимірювань інженер записує цифру: 36 В
Таким чином, інженер округлює показання приладу до найближчої 1, відповідно до паспортної похибкою приладу.
Іншими словами, в протокол вимірювань записується результат, округлений до останньої достовірної цифри.
Похибка приладу + -1 В, отже, десятки в цифрі 36,3 достовірні, одиниці - достовірні, а десяті частки вольта - недостовірні. Похибка приладу не дозволяє вимірювати десяті частки.
Тому десяті частки округлюються до найближчої 1 - відповідно до арифметичними правилами округлення.
Якби вольтметр мав похибка вимірювань ± 0,5 В, то, отримавши результат 36,3 В, в протокол вимірювань ми повинні занести 36,5 В.
Представляти в протоколі вимірів тільки достовірні цифри - так розуміється коректність роботи з кількісними даними будь-якого типу.
Наш «прилад» - кількісні статистичні вимірювання. Похибка нашого приладу залежить від обсягу вибірки - см. Рис. 8.
Професійна культура вимагає, щоб в звіті представлялися тільки достовірні результати:
Приклад. (Продовження)
Остаточний вигляд таблиці в звіті, з поданням математично коректних результатів:
Хворіли на грип протягом останніх.
Увага! При округленні результатів слід мати на увазі: може вийти так, що сума всіх цифр не буде дорівнює 100,0% (останній рядок в таблиці).
Група висновків 1
Група висновків 2
- Якщо при проведенні кількісних вимірювань вас задовольняє точність ± 10%, користуйтеся обсягом вибірки 100: збільшення вибірки вдвічі нічого принципово нового не принесе, крім, хіба що, збільшення бюджету.
- Аналогічно і для необхідної точності ± 5% цілком достатньо вибірки близько 350. Дворазове збільшення вибірки не принесе суттєвих результатів.
- Для проведення прецизійних (особливо точних) статистичних вимірювань - з точністю до 0,1% - потрібно вибірка не менше 15-20 тис.
- Якщо дослідник в звіті про кількісні статистичних вимірах вказує цифри з точністю до десятих часток%, і на підставі десятих часток% робить якісь висновки, то, швидше за все, він фальсифікує їх.
Подання математично коректних даних в звіті не позбавляє від необхідності окремо вказувати статистичну похибку проведених статистичних вимірювань.