Математика для психологів
Точкові оцінки параметрів розподілу
Будь-яка функція від результатів спостережень x 1. x 2. x n досліджуваної випадкової величини X називається статистикою (статистичною оцінкою).
Наприклад, позначимо через Q невідомий параметр розподілу випадкової величини. Тоді статистика Q n. використовувана як наближене значення невідомого параметра Q. називається точкової статистичної оцінкою цього параметра. Так, наприклад, за значеннями x 1. x 2. x n можна обчислити їх середнє арифметичне, дисперсію і так далі - всі ці числа можуть розглядатися як точкові оцінки відповідних параметрів невідомої випадкової величини.
Для того щоб статистичні оцінки давали «хороші» наближення оцінюваних параметрів, вони повинні відповідати певним вимогам: оцінка повинна бути несмещенной, ефективної і заможної.
Визначення 35. незміщеної називають статистичну оцінку Q *. математичне очікування якої дорівнює оцінюваному параметру Q при будь-якому обсязі вибірки, т. е. M (Q *) = Q. Зміщеною називають оцінку, математичне очікування якої не дорівнює оцінюваному параметру.
Визначення 36. Ефективною називають статистичну оцінку, яка (при заданому обсязі вибірки) має найменшу можливу дисперсію.
При розгляді вибірок великого обсягу (n велике!) До статистичних оцінок ставиться вимога спроможності.
Визначення 37. заможних називають статистичну оцінку, яка при n → ∞ прагне за ймовірністю до оцінюваного параметру.
Наприклад, якщо дисперсія несмещенной оцінки при прагне до нуля, то така оцінка виявляється і заможної.
Розглянемо точкові оцінки параметрів розподілу, тобто оцінки, які визначаються одним числом Q * = f (x 1. x n). де - (x 1. x n) вибірка з генеральної сукупності X До характеристик розподілу, що описує кількісно його структуру і будову, відносяться:
- характеристики положення;
- розсіювання;
- асиметрії та ексцесу.
характеристики положення
До характеристик стану відносяться такі оцінки, звані оцінками центральної тенденції: мода Мо. медіана Ме. середнє арифметичне або вибіркове середнє і квантилі.
Мода
Велике значення має така величина ознаки, яка зустрічається найчастіше в досліджуваному ряду, в сукупності. Така величина називається модою (Мо). У дискретному ряду Мо визначається без обчислення, як значення ознаки з найбільшою частотою.
Наприклад, нехай дано варіаційний ряд: 9, 10, 13, 13, 13, 13, 15, 18, 20, 25. Тоді його мода Мо = 13.
При розрахунку моди може виникнути кілька ситуацій:
1. Два значення ознаки, що стоять поруч, зустрічаються однаково часто. В цьому випадку мода дорівнює середньому арифметичному цих двох значень. Наприклад, в наступному ряду даних:
12, 13, 14, 14, 14, 16, 16, 16, 18, 19
Мо = (14 + 16) / 2 = 15.
2. Два значення, зустрічаються також однаково часто, але не стоять поруч. У цьому випадку говорять, що ряд даних має дві моди, тобто він бімодальний.
3. Якщо всі значення даних зустрічаються однаково часто, то кажуть, що ряд не має моди.
Найчастіше зустрічаються ряди даних з одним модальним значенням ознаки. Якщо в ряду даних зустрічається два або більше рівних значень ознаки, то говорять про неоднорідність сукупності.
Медіана.
Друга числова характеристика ряду даних називається медіаною (Ме) - це таке
значення ознаки, яке ділить ряд навпіл. Інакше, медіана володіє тим властивістю, що половина всіх вибіркових значень ознаки менше її, половина більше. При непарному числі елементів в ряду даних, медіана дорівнює центральному члену ряду, а при парному середньому арифметичному двох центральних значень ряду.
У нашому прикладі 9, 10, 13, 13, 13, 13, 15, 18, 20, 25 отримуємо Ме = (13 + 13) / 2 = 13. Обчислення медіани має сенс тільки для порядкового ознаки.
Середнє арифметичне значення ознаки.
Нехай є випадкова величина X значення (реалізації) якої x 1. x 2. x n будь-яким чином нам стали відомі. Іншими словами, для вивчення генеральної сукупності щодо кількісної ознаки X витягнута вибірка x 1. x 2. x n обсягу n. Вибіркової середньої називають середнє арифметичне значення ознаки вибіркової сукупності.
Якщо всі значення ознаки вибірки різні, то вибіркове середнє
x n # 175; = X 1 +. + X n n.
Для вибірок з повторюваними значеннями x n # 175; = 1 n Σ i x i n i називають середньої арифметичної зваженої. Вибіркове середнє можна записати і так:
x n # 175; = Σ i x i k i.
де k i = n i n відповідні частості. Для позначення вибіркового середнього також використовують символи: x # 175 ;. M * (X). m x *.
Якщо вибірка представлена інтервальним варіаційним рядом, то за приймають середини часткових інтервалів, а - відповідні їм частоти.
Були визначені операції над випадковими величинами, а саме, сума випадкових величин і множення випадкової величини на константу. Кожне із значень x i є випадковою величиною, що має однакове розподіл з невідомої X. Розглянемо вибіркову середню x # 175; n як функцію, складену з однакових випадкових величин, тобто мають однакове розподіл з X:
x # 175; n = x 1 + x 2 +. + X n n.
Це нова випадкова величина. Обчислимо її математичне очікування
M (x # 175; n) = M (1 n (x 1 + x 2 +. + x n)) = 1 n (M x 1 + M x 2 +. + M x n) = M X.
Таким чином, ми показали, що вибіркове середнє x n # 175; є несмещенной оцінкою математичного очікування M X.
Розглянемо дисперсію випадкової величини x # 175; n. представляє з себе вибіркове середнє, як функцію, складену з однакових випадкових величин, тобто мають однакове розподіл з X:
D (x # 175; n) = D (1 n (x 1 +. + x n)) = 1 n 2 (D x 1 + D x 2 +. + D x n) = D X n.
Очевидно, що з ростом n отримуємо D x # 175; n → 0.
Отже, вибіркове середнє є спроможною оцінкою M X.
Квантиль - це таке значення ознаки, яке ділить розподіл в заданій пропорції: зліва 0,5%, праворуч 99,5%; зліва 2,5%, праворуч 97,5% і т.п. Зазвичай виділяють такі різновиди квантилів:
1) Кварта Q 1. Q 2. Q 3 - вони ділять розподіл на чотири частини по 25% в кожній;
2) Квінт K 1. K 2. K 3. K 4 - вони ділять розподіл на п'ять частин по 20% в кожній;
3) децили D 1. D 9. їх дев'ять, і вони ділять розподіл на десять частин по 10% в кожній;
4) відсоток P 1. P 2. P 99. їх дев'яносто дев'ять, і вони ділять розподіл на сто частин по 1% в кожній частині.
Оскільки процентиль - найбільш дрібне ділення, то всі інші квантилі можуть бути представлені через процентилю. Так, перший квартиль - це двадцять п'ятого процентиль, перший квінтіль - другий дециль або двадцятий процентиль, і т.п.
характеристики розсіювання
Використовуючи для опису ряду значень ознаки, тільки міру центральної тенденції, можна сильно помилитися в оцінці характеру досліджуваної сукупності.
Приклад 39. Припустимо, ми вивчаємо середній вік в двох групах, що складаються кожна з 6-ти чоловік. Значення ознаки розподілилися наступним чином:
1 група - 10, 10, 10, 50, 50, 50
2 група - 30, 30, 30, 30, 30, 30
Підрахувавши середнє значення в кожній з груп, отримаємо, що вони рівні, тоді як абсолютно очевидно, що вибірки взяті з різних сукупностей. Помилка сталася через розкиду значень віку в цих групах.
Існує кілька способів оцінки ступеня розкиду або розсіювання даних. Основними характеристиками розсіювання є: розмах R. вибіркова дисперсія s 2 (n). среднеквадратическое (стандартне) відхилення s (n). коефіцієнт варіації V.
розмах
Найпростіший з параметрів розподілу, розмах - це різниця між максимальним і мінімальним значеннями ознаки: R = x max # 8289; - x min # 8289 ;.
вибіркова дисперсія
Вибіркової дисперсією називають середнє арифметичне квадратів відхилення спостережуваних значень ознаки від їх середнього значення. Якщо всі значення ознаки вибірки різні, то
s 2 (n) = 1 n Σ i = 1 n (x i - x # 175; n) 2.
Для вибірок з кратними значеннями визначають дисперсію зважену
s 2 (n) = 1 n Σ i = 1 n (x i - x # 175; n) 2 n i.
Можна показати, що дисперсія може бути підрахована також по формулі
s 2 (n) = 1 n Σ i = 1 n x i 2 n i - (x # 175; n) 2.
Для характеристики розсіювання значень ознаки вибірки навколо свого середнього значення користуються зведеної характеристикою - середнім квадратичним відхиленням. Вибірковим середнім квадратичним відхиленням називають квадратний корінь з вибіркової дисперсії s (n).
Якщо підрахувати математичне очікування s 2 (n). то неважко отримати співвідношення M (s 2 (n)) = (1 - 1 n) D X. з якого випливає, що вибіркова дисперсія є зміщеною оцінкою для D X.
Тому в практичних розрахунках використовують так звану «виправлену» вибіркову дисперсію, що задовольняє формулою
s 2 (n) = 1 (n - 1) Σ i = 1 n (x i - x # 175; n) 2.
Така оцінка дисперсії є несмещенной і заможної.
Зауваження: формули для обчислення вибіркової дисперсії і виправленої дисперсії відрізняються тільки знаменниками. При досить великих n вибіркова і виправлена дисперсії мало відрізняються, тому на практиці виправленої дисперсією користуються, якщо n <30.
Дисперсія показує розкид значень ознаки щодо свого середнього арифметичного значення, тобто наскільки щільно значення ознаки групуються навколо; чим більше розкид, тим сильніше варіюються результати випробовуваних в даній групі, тим більше індивідуальні відмінності між піддослідними.
Коефіцієнт варіації
Вибіркова дисперсія і стандартне відхилення виражаються в одиницях виміру розглянутого ознаки і непридатні для порівняння ступенів розсіювання двох вибірок різної природи. Для порівняння таких ступенів розсіювання використовується коефіцієнт варіації. Коефіцієнт варіації взагалі не має розмірності, що дозволяє порівнювати варіативність випадкових величин, що мають різну природу:
V = s (n) x # 175; n # 8901; 100%.
Вибіркові коефіцієнти асиметрії і ексцесу
Для підрахунку асиметрії вибірки існує кілька типів коефіцієнтів. Найбільш точним з них є вибірковий коефіцієнт асиметрії A (n). підраховуваний за формулою
A (n) = 1 n # 8901; s 3 (n) Σ i = 1 n (x i - x # 175; n) 3.
Асиметрія характеризує ступінь асиметричності розподілу. коефіцієнт
асиметрії змінюється від мінус до плюс нескінченності - ∞ Показник асиметрії може бути використаний для змістовної інтерпретації отриманих даних. Якщо спостережуваний ознака формується під впливом великого числа факторів, кожен з яких вносить свій невеликий внесок в величину цієї ознаки, то ми маємо право очікувати симетричного розподілу. Однак, якщо отримана значна величина асиметрії (велика по абсолютній величині, ніж 0.4 - 0,5), можна припустити, що присутній значний вплив одного або групи чинників.
Для одновершинная розподілу використовують ще одну характеристику це вибірковий коефіцієнт ексцесу E (n). Ексцес характеризує гостровершинності розподілу. Міра ексцесу вказує на ступінь концентрації спостережень близько вибіркового середнього значення x # 175; n. Так, величина ексцесу для нормальної (гауссових) кривої розподілу дорівнює 3. Виходячи з цілого ряду міркувань, загостреність цієї кривої приймають за стандарт, тому в якості показника ексцесу використовують величину E x - 3. Власне сам ексцес може бути обчислений за формулою:
E (n) = E x - 3 = 1 n # 8901; s 4 (n) Σ i = 1 n (x i - x # 175; n) 4 - 3.
Коефіцієнт ексцесу також змінюється від мінус до плюс нескінченності - ∞ Приклад 40. Порядок розрахунку характеристик вибірки. Число ступенів свободи це число вільно змінних одиниць в складі вибірки. Так, якщо вибірка складається з n елементів і характеризується середньою x # 175; n. то будь-який елемент цієї сукупності може бути отриманий як різниця між величиною n # 8901; x # 175; n і сумою всіх інших елементів, крім самого цього елемента. Наприклад, розглянемо вирізаний з картону трикутник. Його положення в просторі цілком визначене завдання координат трьох його вершин (x 1. y 1. z 1). (X 2. y 2. z 2). (X 3. y 3. z 3). Але, якщо задана одна вершина, то друга не може піти від неї більш ніж на довжину з'єднує їх боку. Тоді, для завдання другої вершини досить вже двох координат. Для третьої вершини, після того, як задані дві перших, вже досить задати одну координату. Приклад з психології належить Н. А. Бернштейн. Припустимо, що треба доторкнутися кінчиком пальця до дверного дзвінку. Тоді положення руки, що забезпечує цей акт, має, по крайней мере, сім ступенів свободи. Дійсно, вважаємо положення плечового суглоба фіксованим, кожен з решти п'яти суглобів додає два ступені свободи мінус три ступені, задані співвідношенням «кінчик вказівного пальця знаходиться на дзвінку». Розглянемо випадок оцінки дисперсії. Відоме властивість дисперсії: s 2 (x) = 1 n - 1 ((x 1 - x # 175; ) 2 +. + (X n - x # 175; ) 2) має при незалежних n координатах n - 1 ступенів свободи. матиме n ступенів свободи.ступені свободи
Таким чином, положення трикутника в просторі може бути задано шістьма координатами, або він має шість ступенів свободи.
Число ступенів свободи системи дорівнює числу ступенів свободи її елементів мінус число накладених зв'язків.
s 2 (x 1 + x 2) = s 2 (x 1 + C. x 2 + C).
В силу цієї властивості (зв'язку) сума
Якщо в формулу вибіркової оцінки дисперсії поставити відоме реальне математичне сподівання випадкової величини X. рівне a. то сума