Статистична похибка результатів і культура представлення даних в маркетингу, лабораторія

Маркетинг дляУкаіни - порівняно нова прикладна наука. Тут, в основному, працюють представники «суміжних» професій - соціологи, психологи, економісти і т.д.

Змішання професійних культур гальмує розвиток власної культури проведення маркетингових досліджень (надалі - МІ) і подання їх результатів, на підставі яких замовник досліджень повинен приймати рішення і вести свій бізнес.

Розглянемо окремий питання про статистичну похибку кількісних МІ і про те, як в зв'язку з наявністю даної похибки доцільно представляти результати.

Проводячи кількісні (або статистичні) вимірювання різних параметрів ринку, дослідник отримує конкретні результати, виражені в цифрах, - відсотки, рейтинги і т.д. Дані цифри, оформлені у вигляді системи таблиць, графіків і т.п. супроводжувалися висновками і рекомендаціями, надаються замовнику.

Тут є одна проблема, швидше за все не відома замовнику, але про яку дослідник повинен знати.

Всі представлені в звіті цифри - є тільки оцінка вимірюваного параметра, зроблена дослідником на підставі проведених статистичних вимірювань. Оцінка в принципі не точна, хоча б тому, що має т.зв. «Статистичну похибку» (в принципі дані можуть мати інші види похибки, наприклад, пов'язані з помилками дослідника при проектуванні і організації самого процесу дослідження, неправильної постановки завдання і т.д. Ми їх тут не розглядаємо).

Іншими словами, надані цифри мають свої%.

Природно, чим більше величини вибірки статистичних вимірювань, тим менше статистична похибка.

Дослідник є професіоналом, тому, швидше за все, знає про величину статистичної похибки в представлених замовнику даних. Дослідник в звіті вказує, як правило, величину статистичної похибки.

Але замовник може і не знати, що означає зазначена дослідником в звіті статистична похибка, а головне, що з цієї похибкою робити, як її враховувати при проектуванні своєї подальшої діяльності.

Нижче розглянемо два основних питання:

  1. Статистичні похибки вимірювань. (В основному, для професіоналів).
  2. Як коректно представляти замовнику кількісні дані за наявної статистичної похибки.

Приклад. Фрагмент звіту за статистикою захворюваності населення Москви.

Питання: «Ви хворіли на грип останнім часом?»

При проведенні опитування відповіді розподілилися наступним чином (в абсолютних цифрах):

Хворіли на грип протягом останніх.

Величина статистичних похибок

Припустимо, ми хочемо оцінити якийсь параметр р ринку. З цією метою ми проводимо статистичне вимір на вибірці n.

Відзначимо, що число р є абсолютно точне значення шуканого параметра, яке нам невідомо і не може бути відомо в принципі, але яке нам треба оцінити методом статистичних вимірювань.

Довірча ймовірність і відповідний їй інтервал

Проводячи статистичне вимір, ми можемо отримати оцінку р * нашого шуканого параметра р.

Наша оцінка р * буде знаходитися десь поблизу істинного значення параметра р. і, швидше за все, не буде точно дорівнює р.

Розподіл можливих значень оцінок значення шуканого параметра f (p *). підпорядковується, в загальному випадку, нормальному (гауссова) закону - рис.1.

рис.1.

Тут = 3,14159.

- т.зв. середньоквадратичне відхилення (СКО), величина, залежна від обсягу вибірки n. чим більше вибірка, тим менше відхилення.

Площа, обмежена кривою Гаусса і горизонтальною віссю, дорівнює 1.

Розглянемо відсоток А% площі під кривою поблизу р в межах від р-х до р + х. (Рис. 2)

З ймовірністю А% отримана оцінка р * буде перебувати в межах від р-х до р + х.

Імовірність А% називають довірчою ймовірністю. Кажуть: з ймовірністю А% наша оцінка р * буде перебувати в інтервалі між нижньою межею р-х і верхньою межею р + х поблизу р.

Або скорочено - «р% х».

Прийнята стандартна величина довірчої ймовірності А = 95%. в цьому випадку наш інтервал матиме кордону% 2 поблизу р. Або - р% 2 (рис.3).

правдоподібність

У попередньому розділі питання стояло про те, де поблизу істинного значення параметра р може перебувати наша оцінка р *.

В житті - навпаки. Ми не знаємо істинного значення р. але, провівши статистичні вимірювання, знаходимо оцінку р *.

Питання про похибки нашої оцінки ставиться таким чином: який той інтервал поблизу р *. де може перебувати (з ймовірністю А%) істинне значення параметра р?

Іншими словами, р% скільки? при даній вибірці n.

Розглянемо це питання.

Отже, ми маємо оцінку р *. Ми маємо право висунути гіпотезу: «справжнє значення параметра р є р1 (рис. 4)», або гіпотезу: «справжнє значення параметра р є р2», або «істинне значення параметра р є р3», див рис.4.

Правдоподібності гіпотези щодо істинного значення параметра р одно умовної ймовірності того, що ми отримаємо оцінку р *. якщо насправді істинне значення параметра дорівнює р.

Іншими словами, ми припускаємо, що знаємо параметр р (умова). І ми дивимося, яка умовна ймовірність появи оцінки р *:

Реально значення р нам не відомо. Ми припускаємо (висуваємо гіпотезу), що, припустимо, воно дорівнює р1. Нагадаю, ми, провівши статистичні вимірювання, отримали число р * в якості оцінки параметра р.

Умовна ймовірність при гіпотетичному значенні р1 появи нашої оцінки р *. іншими словами, правдоподібність гіпотези р1. іншими словами, W (p * | p), є - рис.5.

Строго кажучи, ймовірність є площа під кривою рис.5. тому ймовірність отримання даної конкретної оцінки р * при гіпотезі р1 є нескінченно мале число.

Але це число все-таки менше, ніж ймовірність отримання нашої оцінки р *. якщо ми приймемо гіпотезу р3 = р *. (Рис.6)

Зручно використовувати відношення правдоподібності.

За умови, що в чисельнику і в знаменнику дробу нескінченно малі величини, відношення правдоподібності є конкретна ненульова величина, що робить відношення правдоподібності досить практичним для вирішення багатьох завдань.

У нашому випадку найбільш правдоподібною буде гіпотеза, що справжнє значення параметра р одно нашою оцінкою р *. Однак досить правдоподібною виглядає гіпотеза, що справжнє, але невідоме нам, значення параметра р трохи більше, або трохи менше ніж р *.

  1. Знайти чисельне значення кордону відношення правдоподібності. Якщо відношення правдоподібності для даної гіпотези менше цього числа, гіпотеза вважається досить правдоподібною, якщо більше - малоправдоподібним.
  2. На підставі відношення правдоподібності визначити інтервал статистичної похибки оцінки р * при даній вибірці.
  3. Визначимо граничні значення відношення правдоподібності для стандартної довірчої ймовірності А = 95%. (Рис.2)

Граничного відношенню правдоподібності відповідають межі інтервалу поблизу р *. (Назвемо їх ргр), верхня і нижня, які і визначають інтервал статистичної точності нашої оцінки р *.

Граничне відношення правдоподібності

Правдоподібність при ргр. W (p * | p = ргр)

Граничне відношення правдоподібності (для А = 95%):

Отже, для інтервалу, в межах якого, поблизу р *. в умовах довірчої ймовірності А = 95%. може знаходитися справжнє значення параметра р. іншими словами - для інтервалу похибки статистичних вимірювань характерно наступне правило:
На кордонах даного інтервалу відношення правдоподібності одно 7,4; всередині інтервалу - менше, поза - більше, ніж 7,4.

Обчислення інтервалів похибки

Обсяг вибірки, нагадаю, n.

Припустимо, r з них підходять під умови параметра.

Якщо досліджуваний параметр р чимала величина, тобто в межах 5-95%, можливі значення оцінок р * підкоряються біноміальному закону. Межі інтервалу статистичної похибки знаходимо з рівняння:

Вирішуючи рівняння чисельним методом, обчислюємо межі інтервалів статистичної похибки для кожного значення р *. лежачого в межах 5-95%, для різних значень n.

Якщо досліджуваний параметр р малий, лежить в межах до 5%, то можна застосувати закон Пуассона:

Результати розрахунків верхньої і нижньої меж інтервалів статистичної похибки для різних значень оцінок р * при різних вибірках n представлені нижче у вигляді графіків на рис. 8.

1. На графіках представлено інтервал можливих значень р * від 0% до 50% для економії місця. Графіки симетричні щодо лінії 50%.

Похибка оцінки (верхня і нижня межі інтервалів), скажімо, для р * = 60% дорівнює похибки (відповідно, нижньої і верхньої меж інтервалів) оцінки р * = 40%.

2.Чем менше оцінка р *. тим менше похибка статистичних вимірювань. Максимальна похибка вимірювань буде при оцінках в районі 50%. При подальшому збільшенні значення оцінки похибка статистичних вимірювань знову зменшується.

3. Інтервал похибки несиметричний. Наприклад, при обсязі вибірки n = 100 і вийшла оцінці параметра р * = 30% інтервал похибки буде від 30-8% до 30 + 9%.

Приклад. (Продовження)

У таблиці, наведеної раніше, додамо стовпці, в яких:

  1. Результати розрахунку відносної частоти приводяться відповідей, виражених в% за формулою (1), округлені до першої цифри після коми.
  2. Межі інтервалу похибки для кожної цифри (на підставі графіків рис.8.).
  3. Величини інтервалу похибки.

Хворіли на грип протягом останніх.

Відзначимо наступні факти:

  1. Статистична похибка зазначених вимірювань (з вибіркою 401) така, що може однозначно виявити відмінності між частотами відповідей «2 тижні», «1 місяць» і «2 місяці». Межі інтервалів похибки для зазначених відповідей не перетинаються.
  2. Статистична похибка вимірювань не може однозначно визначити відмінностей в частоті відповідей «1 місяць», «3 місяці» і «півроку».

Іншими словами, на підставі представлених даних, можна зробити висновок що «тих, хто хворів на грип в останні 3 місяці більше, ніж тих, хто хворів на грип в останній 1 місяць». Але цей висновок буде недостовірний.

Похибка вимірювань і представлення результатів

На практиці часто трапляється, що обсяг вибірки - не круглий число, при обчисленні оцінки параметра р * за формулою:

цілком може виявитися, що оцінка р * буде не дуже «зручна»:

Як коректно округлити результат?

Розглянемо, як завдання округлення результатів вирішують інженери.

Припустимо, при вимірюванні нікого напруги в якійсь мережі, наявний вольтметр показав результат: 36,3 В

Однак будь-який прилад недосконалий, тобто його показання неточні, мають похибки. Величина похибки приладу звичайно вказується в його паспорті і на панелі.

Якщо наш вольтметр має похибка + -1 В, то в протокол вимірювань інженер записує цифру: 36 В

Таким чином, інженер округлює показання приладу до найближчої 1, відповідно до паспортної похибкою приладу.

Іншими словами, в протокол вимірювань записується результат, округлений до останньої достовірної цифри.

Похибка приладу + -1 В, отже, десятки в цифрі 36,3 достовірні, одиниці - достовірні, а десяті частки вольта - недостовірні. Похибка приладу не дозволяє вимірювати десяті частки.

Тому десяті частки округлюються до найближчої 1 - відповідно до арифметичними правилами округлення.

Якби вольтметр мав похибка вимірювань ± 0,5 В, то, отримавши результат 36,3 В, в протокол вимірювань ми повинні занести 36,5 В.

Представляти в протоколі вимірів тільки достовірні цифри - так розуміється коректність роботи з кількісними даними будь-якого типу.

Наш «прилад» - кількісні статистичні вимірювання. Похибка нашого приладу залежить від обсягу вибірки - см. Рис. 8.

Професійна культура вимагає, щоб в звіті представлялися тільки достовірні результати:

Приклад. (Продовження)

Остаточний вигляд таблиці в звіті, з поданням математично коректних результатів:

Хворіли на грип протягом останніх.

Увага! При округленні результатів слід мати на увазі: може вийти так, що сума всіх цифр не буде дорівнює 100,0% (останній рядок в таблиці).

Група висновків 1

Група висновків 2

  1. Якщо при проведенні кількісних вимірювань вас задовольняє точність ± 10%, користуйтеся обсягом вибірки 100: збільшення вибірки вдвічі нічого принципово нового не принесе, крім, хіба що, збільшення бюджету.
  2. Аналогічно і для необхідної точності ± 5% цілком достатньо вибірки близько 350. Дворазове збільшення вибірки не принесе суттєвих результатів.
  3. Для проведення прецизійних (особливо точних) статистичних вимірювань - з точністю до 0,1% - потрібно вибірка не менше 15-20 тис.
  4. Якщо дослідник в звіті про кількісні статистичних вимірах вказує цифри з точністю до десятих часток%, і на підставі десятих часток% робить якісь висновки, то, швидше за все, він фальсифікує їх.

Подання математично коректних даних в звіті не позбавляє від необхідності окремо вказувати статистичну похибку проведених статистичних вимірювань.

література:

Читайте також