Коефіцієнти кореляції рангів

Коефіцієнти кореляції рангів - це менш точні, але більш прості за розрахунком непараметричні показники для вимірювання тісноти зв'язку між двома корелюється ознаками. До них відносяться коефіцієнти Спірмена (ρ) і Кендела (τ), засновані на кореляції не самих значень корелюється ознак, а їх рангів - порядкових номерів, що привласнюються кожному індивідуальному значенням х і у (окремо) в ранжированном ряду. Обидві ознаки необхідно ранжувати (нумерувати) в одному і тому ж порядку: від менших значень до великих і навпаки. Якщо зустрічається кілька значень х (або у), то кожному з них присвоюється ранг, рівний приватному від ділення суми рангів (місць в ряду), що припадають на ці значення, на число рівних значень. Ранги ознак х і у позначають символами Rx і Ry (іноді Nx і Ny). Судження про зв'язок між змінами значень х і у засновано на порівнянні поведінки рангів за двома ознаками паралельно. Якщо у кожної пари х і у ранги збігаються, це характеризує максимально тісний зв'язок. Якщо ж спостерігається повна протилежність рангів, тобто в одному ряду ранги зростають від 1 до n. а в іншому - зменшуються від n до 1, це максимально можлива зворотний зв'язок. Підходи для оцінки тісноти зв'язку у Спірмена і Кендела не однакові. Для розрахунку коефіцієнта Спірмена значення ознак х і у нумерують (окремо) в порядку зростання від 1 до n. тобто їм присвоюють певний ранг (Rx і Ry) - порядковий номер в ранжированном ряду. Потім для кожної пари рангів знаходять їх різницю (позначається як d = Rx - Ry), і квадрати цієї різниці підсумовують.

де d - різниця рангів х і у;

n - число спостережуваних пар значень х і у.

Коефіцієнт ρ може приймати значення від 0 до ± 1. Слід мати на увазі, що, оскільки коефіцієнт Спірмена враховує різницю тільки рангів, а не самих значень х і у, він менш точний в порівнянні з лінійним коефіцієнтом. Тому його крайні значення (1 або 0) не можна беззастережно розцінювати як свідчення функціонального зв'язку або повної відсутності залежності між х і у. У всіх інших випадках, тобто коли ρ не приймає крайніх значень, він досить близький до r.

Формула (147) застосовна строго теоретично тільки тоді, коли окремі значення х (і у), а отже, і їх ранги не повторюються. Для випадку повторюваних (пов'язаних) рангів є інша, більш складна формула, скорегована на число повторюваних рангів. Однак досвід показує, що результати розрахунків по скоригованої формулою для пов'язаних рангів мало відрізняються від результатів, отриманих за формулою для неповторяющихся рангів. Тому на практиці формула (147) успішно застосовується як для неповторюваних, так і для повторюваних рангів.

Коефіцієнт кореляції рангів Кендела τ будується дещо по-іншому, хоча його розрахунок також починається з ранжирування значень ознак х і у. Ранги х (Rx) розташовують строго в порядку зростання і паралельно записують відповідне кожному Rx значення Ry. Оскільки Rx записані строго по зростанню, то ставиться завдання визначити міру відповідності послідовності Ry «правильному» слідування Rx. При цьому для кожного Ry послідовно визначають число наступних за ним рангів, що перевищують його значення, і число рангів, менших за значенням. Перші ( «правильне» проходження) враховуються як бали зі знаком «+», і їх сума позначається буквою Р. Другі ( «неправильне» проходження) враховуються як бали зі знаком «-», і їх сума позначається буквою Q. Очевидно, що максимальне значення Р досягається в тому випадку, якщо ранги y (Ry) збігаються з рангами х (Rx) і в кожному ряду представляють ряд натуральних чисел від 1 до п. Тоді після першої пари значень Rx = 1 і Ry = 1 число перевищення даних значень рангів складе (n - 1), після другої пари, де Rx = 2 і Ry = 2, відповідно (п - 2) і т.д. Таким чином, якщо ранги х і у збігаються і число пар рангів одно n. то

Якщо ж послідовність рангів х і у має зворотну тенденцію по відношенню до послідовності рангів х. то Q буде таке ж максимальне значення по модулю:

Якщо ж ранги у не збігаються з рангами х. то підсумовуються всі позитивні і негативні бали (S = P + Q); ставлення цієї суми S до максимального значення одного з доданків і являє собою коефіцієнт кореляції рангів Кендела τ, тобто .:

Формула коефіцієнта кореляції рангів Кендела (148) застосовується для випадків, коли окремі значення ознаки (як х, так і у) не повторюються і, отже, їх ранги не є об'єднані. Якщо ж зустрічається кілька однакових значень х (або у), тобто ранги повторюються, стають пов'язаними. коефіцієнт кореляції рангів Кендела визначається за формулою:

де S - фактична загальна сума балів при оцінці +1 кожної пари рангів з однаковим порядком зміни і -1 кожної пари рангів на протилежне зміни;

- число балів, коригувальних (зменшують) максимальну суму балів за рахунок повторень (об'єднань) t рангів в кожному ряду.

Відзначимо, що випадки проходження однакових повторюваних рангів (в будь-якому ряду) оцінюються балом 0, тобто вони не враховуються при розрахунку ні зі знаком «+», ні зі знаком «-».

Переваги рангових коефіцієнтів кореляції Спірмена та Кендела: вони легко обчислюються, з їх допомогою можна вивчати і вимірювати зв'язок не тільки між кількісними, а й між якісними (описовими) ознаками, ранжируваних певним чином. Крім того, при використанні рангових коефіцієнтів кореляції не потрібно знати форму зв'язку досліджуваних явищ.

Якщо число ранжируваних ознак (факторів) більше двох, то для вимірювання тісноти зв'язку між ними можна використовувати запропонований М. Кендел і Б. Смітом коефіцієнт конкордації (множинний коефіцієнт рангової кореляції):

де S - сума квадратів відхилень суми т рангів від їх середньої величини;

т - число ранжируваних ознак;

п - число ранжируваних одиниць (число спостережень).

Формула (150) застосовується для випадку, коду ранги за кожною ознакою не повторюються. Якщо ж є пов'язані ранги, то коефіцієнт конкордації розраховується з урахуванням числа таких повторюваних (пов'язаних) рангів по кожному фактору:

де t - число однакових рангів по кожному ознакою.

Коефіцієнт конкордації W може приймати значення від 0 до 1. Однак, необхідно перевірити його на істотність (значимість) за допомогою критерію χ2 при відсутності пов'язаних рангів за формулою (152), а при їх наявності - по формулі (153):

Фактичне значення χ2 порівнюється з табличним, відповідним прийнятому рівню значущості α (0,05 або 0,01) і числа ступенів свободи v = п - 1. Якщо χ2факт> χ2табл, то W - істотний (значущий).

Коефіцієнт конкордації особливо часто використовується в експертних оцінках, наприклад, для того, щоб визначити ступінь узгодженості думок експертів про важливість того чи іншого оцінюваного показника або скласти рейтинг окремих одиниць по будь-якою ознакою. У формулі (150) в цих випадках т означає число експертів, а n - число ранжируваних одиниць (або ознак).

практична статистика