Стандартизация
Непосредственное использование переменных в анализе может привести к тому, что классификацию будут определять переменные, имеющие наибольший разброс значений. Поэтому применяются следующие виды стандартизации:
Z -шкалы (Z-Scores). Из значений переменных вычитается их среднее, и эти значения делятся на стандартное отклонение.
Разброс от -1 до 1. Линейным преобразованием переменных добиваются разброса значений от -1 до 1.
Разброс от 0 до 1. Линейным преобразованием переменных добиваются разброса значений от 0 до 1.
Максимум 1. Значения переменных делятся на их максимум.
Среднее 1. Значения переменных делятся на их среднее.
Стандартное отклонение 1. Значения переменных делятся на стандартное отклонение.
Кроме того, возможны преобразования самих расстояний, в частности, можно расстояния заменить их абсолютными значениями, это актуально для коэффициентов корреляции. Можно также все расстояния преобразовать так, чтобы они изменялись от 0 до 1.
Таким образом, работа с кластерным анализом может превратиться в увлекательную игру, связанную с подбором метода агрегирования, расстояния и стандартизации переменных с целью получения наиболее интерпретируемого результата. Желательно только, чтобы это не стало самоцелью и исследователь получил действительно необходимые содержательные сведения о структуре данных.
Процесс агрегирования данных может быть представлен графически деревом объединения кластеров (Dendrogramm) либо "сосульковой" диаграммой (Icicle).
Рис. 5.2. Дендрограмма классификации
Но подробнее о процессе кластеризации можно узнать по протоколу объединения кластеров (Schedule).
Пример иерархического кластерного анализа. Проведем кластерный анализ по полученным нами ранее факторам на агрегированном файле Курильского опроса:
Рис. 5.3. Классификация городов
CLUSTER fac1_1 fac2_1 /METHOD BAVERAGE /MEASURE= SEUCLID /ID=name /PRINT SCHEDULE CLUSTER(3,5) /PLOTDENDROGRAM .
В команде указаны переменные fac1_1 fac2_1 для кластеризации. По умолчанию расстояние между кластерами определяется по среднему расстоянию между объектами ( METHOD BAVERAGE ), а расстояние между объектами — как квадрат евклидова (MEASURE= SEUCLID ). Кроме того, распечатывается протокол ( PRINT SCHEDULE ), в качестве переменных выводятся классификации из 3, 4, 5 кластеров ( CLUSTER(3,5) ) и строится дендрограмма ( PLOT DENDROGRAM ).
Разрез дерева агрегирования (рис. 5.2) вертикальной чертой на четыре части дал два кластера, состоящих из уникальных по своим характеристикам городов Александровск-Сахалинский и Черемхово; кластер из 5 городов (Оха, Елизово, Южно-Сахалинск, Хабаровск, Курильск); еще один кластер из 14 городов составили последний кластер.
Естественность такой классификации демонстрирует полученное поле рассеяния данных (рис.5.3).
Таблица 5.2. Протокол объединения кластеров | ||||||
| Cluster Combined | Coefficients | Stage Cluster First Appears | Next Stage | ||
Stage | Cluster 1 | Cluster 2 |
| Cluster 1 | Cluster 2 |
|
1 | 5 | 20 | 0.0115 | 0 | 0 | 2 |
2 | 5 | 11 | 0.0175 | 1 | 0 | 3 |
3 | 5 | 19 | 0.0464 | 2 | 0 | 11 |
4 | 6 | 12 | 0.0510 | 0 | 0 | 8 |
5 | 3 | 16 | 0.0549 | 0 | 0 | 9 |
6 | 13 | 21 | 0.0808 | 0 | 0 | 10 |
7 | 10 | 14 | 0.1082 | 0 | 0 | 14 |
8 | 6 | 15 | 0.1349 | 4 | 0 | 11 |
9 | 3 | 8 | 0.1538 | 5 | 0 | 13 |
10 | 1 | 13 | 0.2818 | 0 | 6 | 12 |
11 | 5 | 6 | 0.4560 | 3 | 8 | 13 |
12 | 1 | 2 | 0.5768 | 10 | 0 | 16 |
13 | 3 | 5 | 0.5861 | 9 | 11 | 16 |
14 | 10 | 17 | 0.6130 | 7 | 0 | 17 |
15 | 7 | 18 | 0.8098 | 0 | 0 | 17 |
16 | 1 | 3 | 1.5406 | 12 | 13 | 18 |
17 | 7 | 10 | 2.5726 | 15 | 14 | 19 |
18 | 1 | 4 | 3.5613 | 16 | 0 | 19 |
19 | 1 | 7 | 5.2217 | 18 | 17 | 20 |
20 | 1 | 9 | 14.9146 | 19 | 0 | 0 |
Процесс объединения подробно показан в протоколе объединения (табл. 5.2). В нем указаны стадии объединения, объединяемые кластеры (после объединения кластер принимает минимальный номер из номеров объединяемых кластеров). Далее следует расстояние между кластерами, номер стадии, на которой кластеры ранее уже участвовали в объединении; затем следующая стадия, где произойдет объединение с другим кластером.
На практике интерпретация кластеров требует достаточно серьезной работы, изучения разнообразных характеристик объектов для точного описания типов объектов, которые составляют тот или иной класс.
- Лекция 1 Цель преподавания дисциплины
- Терминология
- Философские аспекты проблемы систем ии (возможность существования, безопасность, полезность).
- История развития систем ии.
- Лекция 2 Различные подходы к построению систем ии
- Вспомогательные системы нижнего уровня (распознавание образов зрительных и звуковых, идентификация, моделирование, жесткое программирование) и их место в системах ии
- Лекция 3 Понятие образа
- Проблема обучения распознаванию образов (оро)
- Геометрический и структурный подходы.
- Гипотеза компактности
- Обучение и самообучение
- Лекция 4: Адаптация и обучение
- Персептроны
- Нейронные сети История исследований в области нейронных сетей
- Модель нейронной сети с обратным распространением ошибки (back propagation)
- Нейронные сети: обучение без учителя
- Нейронные сети Хопфилда и Хэмминга
- Метод потенциальных функций
- Метод группового учета аргументов мгуа Метод наименьших квадратов
- Общая схема построения алгоритмов метода группового учета аргументов (мгуа)
- Алгоритм с ковариациями и с квадратичными описаниями
- Метод предельных упрощений (мпу)
- Коллективы решающих правил
- Лекция 5: Методы и алгоритмы анализа структуры многомерных данных
- Иерархический кластерный анализ
- Стандартизация
- Быстрый кластерный анализ
- Кластерный анализ
- Иерархическое группирование
- Лекция 6: Логический подход к построению систем ии Неформальные процедуры
- Алгоритмические модели
- Продукционные модели
- Режим возвратов
- Логический вывод
- Зависимость продукций
- Продукционные системы с исключениями
- Язык Рефал
- Лекция 7: Экспертные системы Экспертные системы, базовые понятия
- Экспертные системы, методика построения
- Этап идентификации
- Этап концептуализации
- Этап формализации
- Этап выполнения
- Этап тестирования
- Этап опытной эксплуатации
- Экспертные системы, параллельные и последовательные решения
- Пример эс, основанной на правилах логического вывода и действующую в обратном порядке
- Часть 1.
- Лекция 8: Машинная эволюция Метод перебора как наиболее универсальный метод поиска решений. Методы ускорения перебора
- Эволюция
- Генетический алгоритм (га)
- Как создать хромосомы?
- Как работает генетический алгоритм?
- Эволюционное (генетическое) программирование
- Автоматический синтез технических решений
- Поиск оптимальных структур
- Алгоритм поиска глобального экстремума
- Алгоритм конкурирующих точек
- Алгоритм случайного поиска в подпространствах
- Некоторые замечания относительно использования га
- Лекция 9. Автоматизированный синтез физических принципов действия. Синтез речи Фонд физико-технических эффектов
- Синтез физических принципов действия по заданной физической операции
- Заключительные замечания
- Слабосвязанный мир
- Разделяй и властвуй
- Синтез речи
- Голосовой аппарат человека
- Структура языка
- Технология
- Методы синтеза
- Волновой метод кодирования
- Параметрическое представление
- Синтез по правилам
- Конвертация текста в речь
- Система преобразования текста в речь miTalk
- Анализ текста
- Морфологический анализ
- Правила "буква-звук" и лексическое ударение
- Парсинг
- Модификация ударения и фонологические уточнения
- Просодическая рамка
- Синтез фонетических сегментов
- Оценка синтетической речи