Список функцій statistics toolbox
Формування ієрархічного дерева бінарних кластерів
Z = linkage (Y)
Z = linkage (Y, 'method')
Z = linkage (Y) функція дозволяє сформувати ієрархічне дерево бінарних кластерів з використанням алгоритму. Вхідний аргумент Y є вектором відстаней між парами об'єктів вихідного безлічі даних в багатовимірному просторі. Число елементів вектора Y одно, де - кількість об'єктів у вихідному безлічі даних. Y може бути отриманий як вихідний параметр функції pdist. У загальному випадку вхідний аргумент Y може бути заданий як матриця відстаней між парами об'єктів вихідного безлічі даних, згідно з форматом вихідного параметра функції pdist.
Вихідний параметр Z є матрицею, що містить інформацію про дерево кластерів. Розмірність Z дорівнює. Кінцеві вузли дерева кластерів є об'єктами вихідного безлічі даних - спостережень багатовимірної випадкової величини Y, пронумерованих від 1 до m. Кінцеві вузли є поодинокими кластерами. Вони об'єднуються в кластери вищерозташованими вузлами дерева. Кожному наступному вищерозміщений вузлу дерева кластерів відповідає i -я рядок матриці Z. Йому ставиться в відповідність індекс m + i.
Стовпці 1 і 2 матриці Z містять індекси об'єктів, пов'язаних в новий кластер. Кількість сформованих бінарних кластерів дорівнюватиме (m-1).
3-й стовпець матриці Z містить значення відстаней між парами об'єктів, об'єднаних в кластери.
Припустимо, що дерево кластерів містить 30 початкова вузлів. Якщо 10-й кластер був сформований об'єднанням 5-го і 7-го об'єктів і відстань між ними дорівнює 1,5, тоді 10-й рядок матриці Z буде містити наступні значення Z (:, 10) = [5 6 1.5]. Цей кластер буде мати індекс рівний 10 + 30 = 40. Якщо 40 індекс буде виявлений в наступних рядках Z, то це означає, що 40 бінарний кластер буде об'єднаний в новий вищерозміщений кластер.
Z = linkage (Y, 'method') вхідний аргумент 'method' дозволяє задати алгоритм кластеризації. Значення вхідного аргументу 'method' задається як тестова рядок. Передбачені наступні алгоритми кластеризації
де, - центроїди кластерів r і s.
В результаті застосування центроїдного алгоритму може бути отримано не монотонне дерево кластерів. Це може статися в разі, коли відстань від об'єднання двох кластерів,, до третього кластеру менше, ніж відстань від r або s к. В цьому випадку дендрограмма може змінити свій напрямок, що є підставою для використання іншого алгоритму кластеризації.
де - відстань між кластерами r і s, яке визначається по центроїдного алгоритму. Покроковий алгоритм заснований на збільшенні загальної внутрішньогрупової суми квадратів в результаті приєднання груп r і s. Внутригрупповая сума квадратів кластера визначається як сума квадратів відстаней між всіма об'єктами в кластері і центроїдом кластера.
Приклади використання функції формування ієрархічного дерева бінарних кластерів
1. Формування ієрархічного дерева бінарних кластерів для 10-ти мірної нормально розподіленої випадкової величини. Кількість об'єктів в безлічі вихідних даних дорівнює 20. Графічне представлення дерева бінарних кластерів виконується за допомогою функції dendrogram.

2. Формування ієрархічного дерева бінарних кластерів для 2-х мірної випадкової величини. Кількість об'єктів в безлічі вихідних даних дорівнює 7. Порівнюються різні алгоритми кластеризації. Графічне представлення результатів кластеризації виконується за допомогою функції dendrogram.
2.1. Початкові дані:
2.2. Кластеризація за допомогою алгоритму

2.3. Кластеризація за допомогою алгоритму

2.4. Кластеризація за допомогою алгоритму

2.5. Кластеризація за допомогою алгоритму центроїдного алгоритму

2.6. Кластеризація за допомогою алгоритму покрокового алгоритму
