logo search
Математические методы в биологии

Кластерный анализ

Кластерный анализ является одним из базовых методов распознавания образов без обучения. Методами кластерного анализа решается задача разбиения (классификации, кластеризации) множества объектов таким образом, чтобы все объекты, принадлежащие одному кластеру (классу, группе) были более похожи друг на друга, чем на объекты других кластеров. В отечественной литературе синонимом термина "кластерный анализ" является термин "таксономия". В иностранной литературе под таксономией традиционно понимается классификация видов животных и растений.

Все рассмотренные далее методы могут быть использованы как для классификации объектов, так и для классификации признаков

Виды используемых в кластерном анализе мер сходства и различия перекликаются с философской дилеммой: "ищите сходство" или "ищите различие". Меры сходства для кластерного анализа могут бы" следующих видов:

Мера сходства типа расстояния (функции расстояния), называемая также мерой различия. В этом случае объекты считаются тем более похожими, чем меньше расстояние между ними, поэтому некоторые авторы называют меры сходства типа расстояния мерами различия.

Мера сходства типа корреляции, называемая связью, является мерой, определяющей похожесть объектов. В этом случае объекты считаются тем более похожими, чем больше связь между ними. Меры могут быть легко приведены к предыдущему типу, как показано ниже.

Фактически, кластерный анализ является не столько обычным статистическим методом, сколько "набором" различных алгоритмов "распределения объектов по кластерам". Следует понимать, что кластерный анализ определяет "наиболее возможно значимое решение". Поэтому проверка статистической значимости в действительности здесь неприменима, даже в случаях, когда известны p-уровни (как, например, в методе K средних).