Список функцій statistics toolbox

Формування ієрархічного дерева бінарних кластерів

Z = linkage (Y)
Z = linkage (Y, 'method')

Z = linkage (Y) функція дозволяє сформувати ієрархічне дерево бінарних кластерів з використанням алгоритму. Вхідний аргумент Y є вектором відстаней між парами об'єктів вихідного безлічі даних в багатовимірному просторі. Число елементів вектора Y одно, де - кількість об'єктів у вихідному безлічі даних. Y може бути отриманий як вихідний параметр функції pdist. У загальному випадку вхідний аргумент Y може бути заданий як матриця відстаней між парами об'єктів вихідного безлічі даних, згідно з форматом вихідного параметра функції pdist.

Вихідний параметр Z є матрицею, що містить інформацію про дерево кластерів. Розмірність Z дорівнює. Кінцеві вузли дерева кластерів є об'єктами вихідного безлічі даних - спостережень багатовимірної випадкової величини Y, пронумерованих від 1 до m. Кінцеві вузли є поодинокими кластерами. Вони об'єднуються в кластери вищерозташованими вузлами дерева. Кожному наступному вищерозміщений вузлу дерева кластерів відповідає i -я рядок матриці Z. Йому ставиться в відповідність індекс m + i.

Стовпці 1 і 2 матриці Z містять індекси об'єктів, пов'язаних в новий кластер. Кількість сформованих бінарних кластерів дорівнюватиме (m-1).

3-й стовпець матриці Z містить значення відстаней між парами об'єктів, об'єднаних в кластери.

Припустимо, що дерево кластерів містить 30 початкова вузлів. Якщо 10-й кластер був сформований об'єднанням 5-го і 7-го об'єктів і відстань між ними дорівнює 1,5, тоді 10-й рядок матриці Z буде містити наступні значення Z (:, 10) = [5 6 1.5]. Цей кластер буде мати індекс рівний 10 + 30 = 40. Якщо 40 індекс буде виявлений в наступних рядках Z, то це означає, що 40 бінарний кластер буде об'єднаний в новий вищерозміщений кластер.

Z = linkage (Y, 'method') вхідний аргумент 'method' дозволяє задати алгоритм кластеризації. Значення вхідного аргументу 'method' задається як тестова рядок. Передбачені наступні алгоритми кластеризації

де, - центроїди кластерів r і s.

В результаті застосування центроїдного алгоритму може бути отримано не монотонне дерево кластерів. Це може статися в разі, коли відстань від об'єднання двох кластерів,, до третього кластеру менше, ніж відстань від r або s к. В цьому випадку дендрограмма може змінити свій напрямок, що є підставою для використання іншого алгоритму кластеризації.

де - відстань між кластерами r і s, яке визначається по центроїдного алгоритму. Покроковий алгоритм заснований на збільшенні загальної внутрішньогрупової суми квадратів в результаті приєднання груп r і s. Внутригрупповая сума квадратів кластера визначається як сума квадратів відстаней між всіма об'єктами в кластері і центроїдом кластера.

Приклади використання функції формування ієрархічного дерева бінарних кластерів

1. Формування ієрархічного дерева бінарних кластерів для 10-ти мірної нормально розподіленої випадкової величини. Кількість об'єктів в безлічі вихідних даних дорівнює 20. Графічне представлення дерева бінарних кластерів виконується за допомогою функції dendrogram.

Список функцій statistics toolbox

2. Формування ієрархічного дерева бінарних кластерів для 2-х мірної випадкової величини. Кількість об'єктів в безлічі вихідних даних дорівнює 7. Порівнюються різні алгоритми кластеризації. Графічне представлення результатів кластеризації виконується за допомогою функції dendrogram.

2.1. Початкові дані:

2.2. Кластеризація за допомогою алгоритму

Список функцій statistics toolbox

2.3. Кластеризація за допомогою алгоритму

Список функцій statistics toolbox

2.4. Кластеризація за допомогою алгоритму

Список функцій statistics toolbox

2.5. Кластеризація за допомогою алгоритму центроїдного алгоритму

Список функцій statistics toolbox

2.6. Кластеризація за допомогою алгоритму покрокового алгоритму

Список функцій statistics toolbox