Статистична похибка результатів і культура представлення даних в маркетингу, лабораторія

Маркетинг дляУкаіни - порівняно нова прикладна наука. Тут, в основному, працюють представники «суміжних» професій - соціологи, психологи, економісти і т.д.

Змішання професійних культур гальмує розвиток власної культури проведення маркетингових досліджень (надалі - МІ) і подання їх результатів, на підставі яких замовник досліджень повинен приймати рішення і вести свій бізнес.

Розглянемо окремий питання про статистичну похибку кількісних МІ і про те, як в зв'язку з наявністю даної похибки доцільно представляти результати.

Проводячи кількісні (або статистичні) вимірювання різних параметрів ринку, дослідник отримує конкретні результати, виражені в цифрах, - відсотки, рейтинги і т.д. Дані цифри, оформлені у вигляді системи таблиць, графіків і т.п. супроводжувалися висновками і рекомендаціями, надаються замовнику.

Тут є одна проблема, швидше за все не відома замовнику, але про яку дослідник повинен знати.

Всі представлені в звіті цифри - є тільки оцінка вимірюваного параметра, зроблена дослідником на підставі проведених статистичних вимірювань. Оцінка в принципі не точна, хоча б тому, що має т.зв. «Статистичну похибку» (в принципі дані можуть мати інші види похибки, наприклад, пов'язані з помилками дослідника при проектуванні і організації самого процесу дослідження, неправильної постановки завдання і т.д. Ми їх тут не розглядаємо).

Іншими словами, надані цифри мають свої%.

Природно, чим більше величини вибірки статистичних вимірювань, тим менше статистична похибка.

Дослідник є професіоналом, тому, швидше за все, знає про величину статистичної похибки в представлених замовнику даних. Дослідник в звіті вказує, як правило, величину статистичної похибки.

Але замовник може і не знати, що означає зазначена дослідником в звіті статистична похибка, а головне, що з цієї похибкою робити, як її враховувати при проектуванні своєї подальшої діяльності.

Нижче розглянемо два основних питання:

Статистичні похибки вимірювань. (В основному, для професіоналів).
Як коректно представляти замовнику кількісні дані за наявної статистичної похибки.

Приклад. Фрагмент звіту за статистикою захворюваності населення Москви.

Питання: «Ви хворіли на грип останнім часом?»

При проведенні опитування відповіді розподілилися наступним чином (в абсолютних цифрах):

Хворіли на грип протягом останніх.

Величина статистичних похибок

Припустимо, ми хочемо оцінити якийсь параметр р ринку. З цією метою ми проводимо статистичне вимір на вибірці n.

Відзначимо, що число р є абсолютно точне значення шуканого параметра, яке нам невідомо і не може бути відомо в принципі, але яке нам треба оцінити методом статистичних вимірювань.

Довірча ймовірність і відповідний їй інтервал

Проводячи статистичне вимір, ми можемо отримати оцінку р * нашого шуканого параметра р.

Наша оцінка р * буде знаходитися десь поблизу істинного значення параметра р. і, швидше за все, не буде точно дорівнює р.

Розподіл можливих значень оцінок значення шуканого параметра f (p *). підпорядковується, в загальному випадку, нормальному (гауссова) закону - рис.1.

рис.1.

Тут = 3,14159.

- т.зв. середньоквадратичне відхилення (СКО), величина, залежна від обсягу вибірки n. чим більше вибірка, тим менше відхилення.

Площа, обмежена кривою Гаусса і горизонтальною віссю, дорівнює 1.

Розглянемо відсоток А% площі під кривою поблизу р в межах від р-х до р + х. (Рис. 2)

З ймовірністю А% отримана оцінка р * буде перебувати в межах від р-х до р + х.

Імовірність А% називають довірчою ймовірністю. Кажуть: з ймовірністю А% наша оцінка р * буде перебувати в інтервалі між нижньою межею р-х і верхньою межею р + х поблизу р.

Або скорочено - «р% х».

Прийнята стандартна величина довірчої ймовірності А = 95%. в цьому випадку наш інтервал матиме кордону% 2 поблизу р. Або - р% 2 (рис.3).

правдоподібність

У попередньому розділі питання стояло про те, де поблизу істинного значення параметра р може перебувати наша оцінка р *.

В житті - навпаки. Ми не знаємо істинного значення р. але, провівши статистичні вимірювання, знаходимо оцінку р *.

Питання про похибки нашої оцінки ставиться таким чином: який той інтервал поблизу р *. де може перебувати (з ймовірністю А%) істинне значення параметра р?

Іншими словами, р% скільки? при даній вибірці n.

Розглянемо це питання.

Отже, ми маємо оцінку р *. Ми маємо право висунути гіпотезу: «справжнє значення параметра р є р1 (рис. 4)», або гіпотезу: «справжнє значення параметра р є р2», або «істинне значення параметра р є р3», див рис.4.

Правдоподібності гіпотези щодо істинного значення параметра р одно умовної ймовірності того, що ми отримаємо оцінку р *. якщо насправді істинне значення параметра дорівнює р.

Іншими словами, ми припускаємо, що знаємо параметр р (умова). І ми дивимося, яка умовна ймовірність появи оцінки р *:

Реально значення р нам не відомо. Ми припускаємо (висуваємо гіпотезу), що, припустимо, воно дорівнює р1. Нагадаю, ми, провівши статистичні вимірювання, отримали число р * в якості оцінки параметра р.

Умовна ймовірність при гіпотетичному значенні р1 появи нашої оцінки р *. іншими словами, правдоподібність гіпотези р1. іншими словами, W (p * | p), є - рис.5.

Строго кажучи, ймовірність є площа під кривою рис.5. тому ймовірність отримання даної конкретної оцінки р * при гіпотезі р1 є нескінченно мале число.

Але це число все-таки менше, ніж ймовірність отримання нашої оцінки р *. якщо ми приймемо гіпотезу р3 = р *. (Рис.6)

Зручно використовувати відношення правдоподібності.

За умови, що в чисельнику і в знаменнику дробу нескінченно малі величини, відношення правдоподібності є конкретна ненульова величина, що робить відношення правдоподібності досить практичним для вирішення багатьох завдань.

У нашому випадку найбільш правдоподібною буде гіпотеза, що справжнє значення параметра р одно нашою оцінкою р *. Однак досить правдоподібною виглядає гіпотеза, що справжнє, але невідоме нам, значення параметра р трохи більше, або трохи менше ніж р *.

Знайти чисельне значення кордону відношення правдоподібності. Якщо відношення правдоподібності для даної гіпотези менше цього числа, гіпотеза вважається досить правдоподібною, якщо більше - малоправдоподібним.
На підставі відношення правдоподібності визначити інтервал статистичної похибки оцінки р * при даній вибірці.
Визначимо граничні значення відношення правдоподібності для стандартної довірчої ймовірності А = 95%. (Рис.2)

Граничного відношенню правдоподібності відповідають межі інтервалу поблизу р *. (Назвемо їх ргр), верхня і нижня, які і визначають інтервал статистичної точності нашої оцінки р *.

Граничне відношення правдоподібності

Правдоподібність при ргр. W (p * | p = ргр)

Граничне відношення правдоподібності (для А = 95%):

Отже, для інтервалу, в межах якого, поблизу р *. в умовах довірчої ймовірності А = 95%. може знаходитися справжнє значення параметра р. іншими словами - для інтервалу похибки статистичних вимірювань характерно наступне правило:
На кордонах даного інтервалу відношення правдоподібності одно 7,4; всередині інтервалу - менше, поза - більше, ніж 7,4.

Обчислення інтервалів похибки

Обсяг вибірки, нагадаю, n.

Припустимо, r з них підходять під умови параметра.

Якщо досліджуваний параметр р чимала величина, тобто в межах 5-95%, можливі значення оцінок р * підкоряються біноміальному закону. Межі інтервалу статистичної похибки знаходимо з рівняння:

Вирішуючи рівняння чисельним методом, обчислюємо межі інтервалів статистичної похибки для кожного значення р *. лежачого в межах 5-95%, для різних значень n.

Якщо досліджуваний параметр р малий, лежить в межах до 5%, то можна застосувати закон Пуассона:

Результати розрахунків верхньої і нижньої меж інтервалів статистичної похибки для різних значень оцінок р * при різних вибірках n представлені нижче у вигляді графіків на рис. 8.

1. На графіках представлено інтервал можливих значень р * від 0% до 50% для економії місця. Графіки симетричні щодо лінії 50%.

Похибка оцінки (верхня і нижня межі інтервалів), скажімо, для р * = 60% дорівнює похибки (відповідно, нижньої і верхньої меж інтервалів) оцінки р * = 40%.

2.Чем менше оцінка р *. тим менше похибка статистичних вимірювань. Максимальна похибка вимірювань буде при оцінках в районі 50%. При подальшому збільшенні значення оцінки похибка статистичних вимірювань знову зменшується.

3. Інтервал похибки несиметричний. Наприклад, при обсязі вибірки n = 100 і вийшла оцінці параметра р * = 30% інтервал похибки буде від 30-8% до 30 + 9%.

Приклад. (Продовження)

У таблиці, наведеної раніше, додамо стовпці, в яких:

Результати розрахунку відносної частоти приводяться відповідей, виражених в% за формулою (1), округлені до першої цифри після коми.
Межі інтервалу похибки для кожної цифри (на підставі графіків рис.8.).
Величини інтервалу похибки.

Хворіли на грип протягом останніх.

Відзначимо наступні факти:

Статистична похибка зазначених вимірювань (з вибіркою 401) така, що може однозначно виявити відмінності між частотами відповідей «2 тижні», «1 місяць» і «2 місяці». Межі інтервалів похибки для зазначених відповідей не перетинаються.
Статистична похибка вимірювань не може однозначно визначити відмінностей в частоті відповідей «1 місяць», «3 місяці» і «півроку».

Іншими словами, на підставі представлених даних, можна зробити висновок що «тих, хто хворів на грип в останні 3 місяці більше, ніж тих, хто хворів на грип в останній 1 місяць». Але цей висновок буде недостовірний.

Похибка вимірювань і представлення результатів

На практиці часто трапляється, що обсяг вибірки - не круглий число, при обчисленні оцінки параметра р * за формулою:

цілком може виявитися, що оцінка р * буде не дуже «зручна»:

Як коректно округлити результат?

Розглянемо, як завдання округлення результатів вирішують інженери.

Припустимо, при вимірюванні нікого напруги в якійсь мережі, наявний вольтметр показав результат: 36,3 В

Однак будь-який прилад недосконалий, тобто його показання неточні, мають похибки. Величина похибки приладу звичайно вказується в його паспорті і на панелі.

Якщо наш вольтметр має похибка + -1 В, то в протокол вимірювань інженер записує цифру: 36 В

Таким чином, інженер округлює показання приладу до найближчої 1, відповідно до паспортної похибкою приладу.

Іншими словами, в протокол вимірювань записується результат, округлений до останньої достовірної цифри.

Похибка приладу + -1 В, отже, десятки в цифрі 36,3 достовірні, одиниці - достовірні, а десяті частки вольта - недостовірні. Похибка приладу не дозволяє вимірювати десяті частки.

Тому десяті частки округлюються до найближчої 1 - відповідно до арифметичними правилами округлення.

Якби вольтметр мав похибка вимірювань ± 0,5 В, то, отримавши результат 36,3 В, в протокол вимірювань ми повинні занести 36,5 В.

Представляти в протоколі вимірів тільки достовірні цифри - так розуміється коректність роботи з кількісними даними будь-якого типу.

Наш «прилад» - кількісні статистичні вимірювання. Похибка нашого приладу залежить від обсягу вибірки - см. Рис. 8.

Професійна культура вимагає, щоб в звіті представлялися тільки достовірні результати:

Приклад. (Продовження)

Остаточний вигляд таблиці в звіті, з поданням математично коректних результатів:

Хворіли на грип протягом останніх.

Увага! При округленні результатів слід мати на увазі: може вийти так, що сума всіх цифр не буде дорівнює 100,0% (останній рядок в таблиці).

Група висновків 1

Група висновків 2

Якщо при проведенні кількісних вимірювань вас задовольняє точність ± 10%, користуйтеся обсягом вибірки 100: збільшення вибірки вдвічі нічого принципово нового не принесе, крім, хіба що, збільшення бюджету.
Аналогічно і для необхідної точності ± 5% цілком достатньо вибірки близько 350. Дворазове збільшення вибірки не принесе суттєвих результатів.
Для проведення прецизійних (особливо точних) статистичних вимірювань - з точністю до 0,1% - потрібно вибірка не менше 15-20 тис.
Якщо дослідник в звіті про кількісні статистичних вимірах вказує цифри з точністю до десятих часток%, і на підставі десятих часток% робить якісь висновки, то, швидше за все, він фальсифікує їх.

Подання математично коректних даних в звіті не позбавляє від необхідності окремо вказувати статистичну похибку проведених статистичних вимірювань.

Статистична похибка результатів і культура представлення даних в маркетингу, лабораторія

Величина статистичних похибок

Довірча ймовірність і відповідний їй інтервал

правдоподібність

Граничне відношення правдоподібності

Обчислення інтервалів похибки

Приклад. (Продовження)

Похибка вимірювань і представлення результатів

Приклад. (Продовження)

Група висновків 1

Група висновків 2

література:

Читайте також