Метод главных компонент - Матрица преобразования к главным компонентам

Интернет магазин китайских планшетных компьютеров

Компьютеры - Метод главных компонент - Матрица преобразования к главным компонентам

22 января 2011

Оглавление:
1. Метод главных компонент
2. Формальная постановка задачи
3. Диагонализация ковариационной матрицы
4. Сингулярное разложение матрицы данных
5. Матрица преобразования к главным компонентам
6. Отбор главных компонент по правилу Кайзера
7. Оценка числа главных компонент по правилу сломанной трости
8. Нормировка
9. Механическая аналогия и метод главных компонент для взвешенных данных
10. Специальная терминология
11. Примеры использования

Матрица A преобразования данных к главным компонентам строится из векторов главных компонент: $A=\left \{a_1,...,a_n \right \}^T$ . Здесь a_i — ортонормированные векторы-столбцы главных компонент, расположенные в порядке убывания собственных значений, верхний индекс T означает транспонирование. Матрица A является ортогональной: AA = 1.

После преобразования большая часть вариации данных будет сосредоточена в первых координатах, что даёт возможность отбросить оставшиеся и рассмотреть пространство уменьшенной размерности.

Остаточная дисперсия

Пусть данные центрированы, $\overline{ X}=0$ . При замене векторов данных x_i на их проекцию на первые k главных компонент $x_i \mapsto \sum_{j=1}^k a_j$ вносится средний квадрат ошибки в расчете на один вектор данных:

$\frac{1}{m} \sum_{i=1}^m \left\Vert x_i - \sum_{j=1}^k a_j \right \Vert ^2=\sum_{l=k+1}^n \lambda_l,$

где $\lambda_1 \ge \lambda_2 \ge ... \ge \lambda_n \ge 0$ собственные значения эмпирической ковариационной матрицы C, расположенные в порядке убывания, с учетом кратности.

Эта величина называется остаточной дисперсией. Величина

$\frac{1}{m} \sum_{i=1}^m \left\Vert \sum_{j=1}^k a_j \right \Vert ^2= \frac{1}{m} \sum_{i=1}^m \sum_{j=1}^k^2=\sum_{l=1}^k \lambda_l$

называется объяснённой дисперсией. Их сумма равна выборочной дисперсии. Соответствующий квадрат относительной ошибки — это отношение остаточной дисперсии к выборочной дисперсии:

$\delta^2_k=\frac{\lambda_{k+1}+\lambda_{k+2}+...+\lambda_{n}}{\lambda_{1}+\lambda_{2}+...+\lambda_{n}}.$

По относительной ошибке δ_k оценивается применимость метода главных компонент с проецированием на первые k компонент.

Замечание: в большинстве вычислительных алгоритмов собственные числа λ_i с соответствующими собственными векторами — главными компонентами a_i вычисляются в порядке «от больших λ_i — к меньшим». Для вычисления δ_k достаточно вычислить первые k собственных чисел и след эмпирической ковариационной матрицы C, $\operatorname{tr} C$ . Тогда

$\delta^2_k=\frac{1}{\operatorname{tr} C}\left.$

<<< Инфографика

Нейронная сеть Кохонена >>>

Компьютерное аппаратное обеспечение
Вычислительные комплексы
Компьютерные данные
Компьютерные журналы
Классы компьютеров
Компьютеры

Программное обеспечение
Производители компьютеров
Профессии в ИТ
Системное администрирование
Компьютерный сленг
Списки компьютерных терминов

Человеко-компьютерное взаимодействие