Иерархический кластерный анализ
Процедура иерархического кластерного анализа в SPSS предусматривает группировку как объектов (строк матрицы данных), так и переменных (столбцов). Можно считать, что в последнем случае роль объектов играют переменные, а роль переменных — столбцы.
Этот метод реализует иерархический агломеративный алгоритм. Его смысл заключается в следующем. Перед началом кластеризации все объекты считаются отдельными кластерами, которые в ходе алгоритма объединяются. Вначале выбирается пара ближайших кластеров, которые объединяются в один кластер. В результате количество кластеров становится равным N-1. Процедура повторяется, пока все классы не объединятся. На любом этапе объединение можно прервать, получив нужное число кластеров. Таким образом, результат работы алгоритма агрегирования определяют способы вычисления расстояния между объектами и определения близости между кластерами.
Для определения расстояния между парой кластеров могут быть сформулированы различные разумные подходы. С учетом этого в SPSS предусмотрены следующие методы, определяемые на основе расстояний между объектами:
Среднее расстояние между кластерами (Between-groups linkage).
Среднее расстояние между всеми объектами пары кластеров с учетом расстояний внутри кластеров(Within-groups linkage).
Расстояние между ближайшими соседями — ближайшими объектами кластеров (Nearest neighbor).
Расстояние между самыми далекими соседями (Furthest neighbor).
Расстояние между центрами кластеров (Centroid clustering).
Расстояние между центрами кластеров (Centroid clustering), или центроидный метод. Недостатком этого метода является то, что центр объединенного кластера вычисляется как среднее центров объединяемых кластеров, без учета их объема.
Метод медиан — тот же центроидный метод, но центр объединенного кластера вычисляется как среднее всех объектов (Median clustering).
Метод Варда (Ward's method). В качестве расстояния между кластерами берется прирост суммы квадратов расстояний объектов до центров кластеров, получаемый в результате их объединения.
Расстояния и меры близости между объектами. У нас нет возможности сделать полный обзор всех коэффициентов, поэтому остановимся лишь на характерных расстояниях и мерах близости для определенных видов данных.
Меры близости отличаются от расстояний тем, что они тем больше, чем более похожи объекты.
Пусть имеются два объекта X=(X1,…,Xm) и Y=(Y1,…,Ym). Применяя эту запись для объектов, определить основные виды расстояний, используемых процедуре CLUSTER:
Евклидово расстояние (Euclidian distance).
Квадрат евклидова расстояния (Squared Euclidian distance)
Эвклидово расстояние и его квадрат целесообразно использовать для анализа количественных данных.
Мера близости — коэффициент корреляции , где и — компоненты стандартизованных векторов X и Y. Эту меру целесообразно использовать для выявления кластеров переменных, а не объектов.
Расстояние хи-квадрат получается на основе таблицы сопряженности, составленной из объектов X и Y, которые, предположительно, являются
Таблица 5.1. Таблица для пары объектов — строк частот
X
X1
...
Xm
X.
Y
Y1
...
Ym
Y.
X+Y
X1+Y1
...
Xm+Ym
X.+Y.
векторами частот. Здесь рассматриваются ожидаемые значения элементов, равные E(Xi)=X.*(Xi+Yi)/(X.+Y.) иE(Yi)=Y.*(Xi+Yi)/(X.+Y.), а расстояние хи-квадрат имеет вид корня из соответствующего показателя .
Расстояние Фи-квадрат является расстоянием хи-квадрат, нормированным "число объектов" в таблице сопряженности, представляемой строками X и Y, т.е. на корень квадратный из N=X.+Y..
В иерархичесом кластерном анализе в SPSS также имеется несколько видов расстояний для бинарных данных (векторы X иY состоят из нулей и единиц, обозначающих наличие или отсутствие определенных свойств объектов). Наиболее естественными из них, по видимому, являются евклидово расстояние и его квадрат.
- Лекция 1 Цель преподавания дисциплины
- Терминология
- Философские аспекты проблемы систем ии (возможность существования, безопасность, полезность).
- История развития систем ии.
- Лекция 2 Различные подходы к построению систем ии
- Вспомогательные системы нижнего уровня (распознавание образов зрительных и звуковых, идентификация, моделирование, жесткое программирование) и их место в системах ии
- Лекция 3 Понятие образа
- Проблема обучения распознаванию образов (оро)
- Геометрический и структурный подходы.
- Гипотеза компактности
- Обучение и самообучение
- Лекция 4: Адаптация и обучение
- Персептроны
- Нейронные сети История исследований в области нейронных сетей
- Модель нейронной сети с обратным распространением ошибки (back propagation)
- Нейронные сети: обучение без учителя
- Нейронные сети Хопфилда и Хэмминга
- Метод потенциальных функций
- Метод группового учета аргументов мгуа Метод наименьших квадратов
- Общая схема построения алгоритмов метода группового учета аргументов (мгуа)
- Алгоритм с ковариациями и с квадратичными описаниями
- Метод предельных упрощений (мпу)
- Коллективы решающих правил
- Лекция 5: Методы и алгоритмы анализа структуры многомерных данных
- Иерархический кластерный анализ
- Стандартизация
- Быстрый кластерный анализ
- Кластерный анализ
- Иерархическое группирование
- Лекция 6: Логический подход к построению систем ии Неформальные процедуры
- Алгоритмические модели
- Продукционные модели
- Режим возвратов
- Логический вывод
- Зависимость продукций
- Продукционные системы с исключениями
- Язык Рефал
- Лекция 7: Экспертные системы Экспертные системы, базовые понятия
- Экспертные системы, методика построения
- Этап идентификации
- Этап концептуализации
- Этап формализации
- Этап выполнения
- Этап тестирования
- Этап опытной эксплуатации
- Экспертные системы, параллельные и последовательные решения
- Пример эс, основанной на правилах логического вывода и действующую в обратном порядке
- Часть 1.
- Лекция 8: Машинная эволюция Метод перебора как наиболее универсальный метод поиска решений. Методы ускорения перебора
- Эволюция
- Генетический алгоритм (га)
- Как создать хромосомы?
- Как работает генетический алгоритм?
- Эволюционное (генетическое) программирование
- Автоматический синтез технических решений
- Поиск оптимальных структур
- Алгоритм поиска глобального экстремума
- Алгоритм конкурирующих точек
- Алгоритм случайного поиска в подпространствах
- Некоторые замечания относительно использования га
- Лекция 9. Автоматизированный синтез физических принципов действия. Синтез речи Фонд физико-технических эффектов
- Синтез физических принципов действия по заданной физической операции
- Заключительные замечания
- Слабосвязанный мир
- Разделяй и властвуй
- Синтез речи
- Голосовой аппарат человека
- Структура языка
- Технология
- Методы синтеза
- Волновой метод кодирования
- Параметрическое представление
- Синтез по правилам
- Конвертация текста в речь
- Система преобразования текста в речь miTalk
- Анализ текста
- Морфологический анализ
- Правила "буква-звук" и лексическое ударение
- Парсинг
- Модификация ударения и фонологические уточнения
- Просодическая рамка
- Синтез фонетических сегментов
- Оценка синтетической речи