Интернет магазин китайских планшетных компьютеров



Компьютеры - Кластерный анализ - Типология задач кластеризации

23 января 2011


Оглавление:
1. Кластерный анализ
2. Задачи и условия
3. Анализ и интерпретация его результатов
4. Типология задач кластеризации
5. Формальная постановка задачи кластеризации
6. Применение



Типы входных данных

  • Признаковое описание объектов. Каждый объект описывается набором своих характеристик, называемых признаками. Признаки могут быть числовыми или нечисловыми.
  • Матрица расстояний между объектами. Каждый объект описывается расстояниями до всех остальных объектов обучающей выборки.

Цели кластеризации

  • Понимание данных путём выявления кластерной структуры. Разбиение выборки на группы схожих объектов позволяет упростить дальнейшую обработку данных и принятия решений, применяя к каждому кластеру свой метод анализа.
  • Сжатие данных. Если исходная выборка избыточно большая, то можно сократить её, оставив по одному наиболее типичному представителю от каждого кластера.
  • Обнаружение новизны. Выделяются нетипичные объекты, которые не удаётся присоединить ни к одному из кластеров.

В первом случае число кластеров стараются сделать поменьше. Во втором случае важнее обеспечить высокую степень сходства объектов внутри каждого кластера, а кластеров может быть сколько угодно. В третьем случае наибольший интерес представляют отдельные объекты, не вписывающиеся ни в один из кластеров.

Во всех этих случаях может применяться иерархическая кластеризация, когда крупные кластеры дробятся на более мелкие, те в свою очередь дробятся ещё мельче, и т. д. Такие задачи называются задачами таксономии.

Результатом таксономии является древообразная иерархическая структура. При этом каждый объект характеризуется перечислением всех кластеров, которым он принадлежит, обычно от крупного к мелкому.

Классическим примером таксономии на основе сходства является биноминальная номенклатура живых существ, предложенная Карлом Линнеем в середине XVIII века. Аналогичные систематизации строятся во многих областях знания, чтобы упорядочить информацию о большом количестве объектов.

Методы кластеризации

  • K-средних
  • Графовые алгоритмы кластеризации
  • Статистические алгоритмы кластеризации
  • Алгоритмы семейства FOREL
  • Иерархическая кластеризация или таксономия
  • Нейронная сеть Кохонена
  • Ансамбль кластеризаторов
  • Алгоритмы семейства КRAB
  • EM-алгоритм
  • Алгоритм, основанный на методе просеивания


Просмотров: 8259


<<< Локальный поиск (оптимизация)