Интернет магазин китайских планшетных компьютеров



Компьютеры - Кластерный анализ - Формальная постановка задачи кластеризации

23 января 2011


Оглавление:
1. Кластерный анализ
2. Задачи и условия
3. Анализ и интерпретация его результатов
4. Типология задач кластеризации
5. Формальная постановка задачи кластеризации
6. Применение



Пусть X~ — множество объектов, Y~ — множество номеров кластеров. Задана функция расстояния между объектами \rho~. Имеется конечная обучающая выборка объектов X^m = \{ x_1, \dots, x_m \} \subset X. Требуется разбить выборку на непересекающиеся подмножества, называемые кластерами, так, чтобы каждый кластер состоял из объектов, близких по метрике \rho~, а объекты разных кластеров существенно отличались. При этом каждому объекту x_i\in X^m приписывается номер кластера y_i~.

Алгоритм кластеризации — это функция a\colon X\to Y, которая любому объекту x\in X ставит в соответствие номер кластера y\in Y. Множество Y~ в некоторых случаях известно заранее, однако чаще ставится задача определить оптимальное число кластеров, с точки зрения того или иного критерия качества кластеризации.

Кластеризация отличается от классификации тем, что метки исходных объектов y_i~ изначально не заданы, и даже может быть неизвестно само множество Y~.

Решение задачи кластеризации принципиально неоднозначно, и тому есть несколько причин:

  • не существует однозначно наилучшего критерия качества кластеризации. Известен целый ряд эвристических критериев, а также ряд алгоритмов, не имеющих чётко выраженного критерия, но осуществляющих достаточно разумную кластеризацию «по построению». Все они могут давать разные результаты.
  • число кластеров, как правило, неизвестно заранее и устанавливается в соответствии с некоторым субъективным критерием.
  • результат кластеризации существенно зависит от метрики, выбор которой, как правило, также субъективен и определяется экспертом.


Просмотров: 8243


<<< Локальный поиск (оптимизация)