ii_intuit_00

Иерархический кластерный анализ

Процедура иерархического кластерного анализа в SPSS предусматривает группировку как объектов (строк матрицы данных), так и переменных (столбцов). Можно считать, что в последнем случае роль объектов играют переменные, а роль переменных — столбцы.

Этот метод реализует иерархический агломеративный алгоритм. Его смысл заключается в следующем. Перед началом кластеризации все объекты считаются отдельными кластерами, которые в ходе алгоритма объединяются. Вначале выбирается пара ближайших кластеров, которые объединяются в один кластер. В результате количество кластеров становится равным N-1. Процедура повторяется, пока все классы не объединятся. На любом этапе объединение можно прервать, получив нужное число кластеров. Таким образом, результат работы алгоритма агрегирования определяют способы вычисления расстояния между объектами и определения близости между кластерами.

Для определения расстояния между парой кластеров могут быть сформулированы различные разумные подходы. С учетом этого в SPSS предусмотрены следующие методы, определяемые на основе расстояний между объектами:

Среднее расстояние между кластерами (Between-groups linkage).
Среднее расстояние между всеми объектами пары кластеров с учетом расстояний внутри кластеров(Within-groups linkage).
Расстояние между ближайшими соседями — ближайшими объектами кластеров (Nearest neighbor).
Расстояние между самыми далекими соседями (Furthest neighbor).
Расстояние между центрами кластеров (Centroid clustering).
Расстояние между центрами кластеров (Centroid clustering), или центроидный метод. Недостатком этого метода является то, что центр объединенного кластера вычисляется как среднее центров объединяемых кластеров, без учета их объема.
Метод медиан — тот же центроидный метод, но центр объединенного кластера вычисляется как среднее всех объектов (Median clustering).
Метод Варда (Ward's method). В качестве расстояния между кластерами берется прирост суммы квадратов расстояний объектов до центров кластеров, получаемый в результате их объединения.

Расстояния и меры близости между объектами. У нас нет возможности сделать полный обзор всех коэффициентов, поэтому остановимся лишь на характерных расстояниях и мерах близости для определенных видов данных.

Меры близости отличаются от расстояний тем, что они тем больше, чем более похожи объекты.

Пусть имеются два объекта X=(X₁,…,X_m) и Y=(Y₁,…,Y_m). Применяя эту запись для объектов, определить основные виды расстояний, используемых процедуре CLUSTER:

Евклидово расстояние (Euclidian distance).
Квадрат евклидова расстояния (Squared Euclidian distance)

Эвклидово расстояние и его квадрат целесообразно использовать для анализа количественных данных.

Мера близости — коэффициент корреляции , где и — компоненты стандартизованных векторов X и Y. Эту меру целесообразно использовать для выявления кластеров переменных, а не объектов.
Расстояние хи-квадрат получается на основе таблицы сопряженности, составленной из объектов X и Y, которые, предположительно, являются

Таблица 5.1. Таблица для пары объектов — строк частот

X

X₁

...

X_m

X.

Y

Y₁

...

Y_m

Y.

X+Y

X₁+Y₁

...

X_m+Y_m

X.+Y.
векторами частот. Здесь рассматриваются ожидаемые значения элементов, равные E(X_i)=X.*(X_i+Y_i)/(X.+Y.) иE(Y_i)=Y.*(X_i+Y_i)/(X.+Y.), а расстояние хи-квадрат имеет вид корня из соответствующего показателя .
Расстояние Фи-квадрат является расстоянием хи-квадрат, нормированным "число объектов" в таблице сопряженности, представляемой строками X и Y, т.е. на корень квадратный из N=X.+Y..
В иерархичесом кластерном анализе в SPSS также имеется несколько видов расстояний для бинарных данных (векторы X иY состоят из нулей и единиц, обозначающих наличие или отсутствие определенных свойств объектов). Наиболее естественными из них, по видимому, являются евклидово расстояние и его квадрат.

Содержание

Таблица 5.1. Таблица для пары объектов — строк частот
X	X₁	...	X_m	X.
Y	Y₁	...	Y_m	Y.
X+Y	X₁+Y₁	...	X_m+Y_m	X.+Y.