Метод главных компонент - Механическая аналогия и метод главных компонент для взвешенных данных

Интернет магазин китайских планшетных компьютеров

Компьютеры - Метод главных компонент - Механическая аналогия и метод главных компонент для взвешенных данных

22 января 2011

Оглавление:
1. Метод главных компонент
2. Формальная постановка задачи
3. Диагонализация ковариационной матрицы
4. Сингулярное разложение матрицы данных
5. Матрица преобразования к главным компонентам
6. Отбор главных компонент по правилу Кайзера
7. Оценка числа главных компонент по правилу сломанной трости
8. Нормировка
9. Механическая аналогия и метод главных компонент для взвешенных данных
10. Специальная терминология
11. Примеры использования

Если сопоставить каждому вектору данных единичную массу, то эмпирическая ковариационная матрица C совпадёт с тензором инерции этой системы точечных масс, а задача о главных компонентых — с задачей приведения тензора инерции к главным осям. Можно использовать дополнительную свободу в выборе значений масс для учета важности точек данных или надежности их значений. Если вектору данных x_l придаётся масса w_l, то вместо эмпирической ковариационной матрицы C получим

$C^w =,\ c^w_{ij} = \frac{1}{\sum_{l} w_l} \sum_{l=1}^m w_l.$

Все дальнейшие операции по приведению к главным компонентам производятся так же, как и в основной версии метода: ищем ортонормированный собственный базис C, упорядочиваем его по убыванию собственных значений, оцениваем средневзвешенную ошибку аппроксимации данных первыми k компонентами, нормируем и т. п.

Более общий способ взвешивания даёт максимизация взвешенной суммы попарных расстояний между проекциями. Для каждых двух точек данных, $x_l , \ x_q$ вводится вес d_lq; d_lq = d_ql и $d_{l}=\sum_{q=1}^m d_{lq}$ . Вместо эмпирической ковариационной матрицы C используется

$C^d =,\ c^d_{ij} =\sum_{l=1}^m d_l -\sum_{l \neq q, \ l,q=1}^m d_{lq}.$

При d_lq > 0 симметричная матрица C положительно определена, поскольку положительна квадратичная форма:

$\sum_{ij} c^d_{ij}a_i a_j = \frac{1}{2}\sum_{lq}d_{lq}\left\right)^2.$

Далее ищем ортонормированный собственный базис C, упорядочиваем его по убыванию собственных значений, оцениваем средневзвешенную ошибку аппроксимации данных первыми k компонентами и т. д. — в точности так же, как и в основном алгоритме.

Этот способ применяется при наличии классов: для $x_l , \ x_q$ из разных классов вес d_lq вес выбирается большим, чем для точек одного класса. В результате, в проекции на взвешенные главные компоненты различные классы «раздвигаются» на большее расстояние.

Другое применение — снижение влияния больших уклонений, которые могут искажать картину из-за использования среднеквадратичного расстояния: если выбрать $d_{lq}=1/ \| x_l -x_q \|$ , то влияние больших уклонений будет уменьшено. Таким образом, описанная модификация метода главных компонент является более робастной, чем классическая.

<<< Инфографика

Нейронная сеть Кохонена >>>

Компьютерное аппаратное обеспечение
Вычислительные комплексы
Компьютерные данные
Компьютерные журналы
Классы компьютеров
Компьютеры

Программное обеспечение
Производители компьютеров
Профессии в ИТ
Системное администрирование
Компьютерный сленг
Списки компьютерных терминов

Человеко-компьютерное взаимодействие