Интернет магазин китайских планшетных компьютеров



Компьютеры - Метод главных компонент - Матрица преобразования к главным компонентам

22 января 2011


Оглавление:
1. Метод главных компонент
2. Формальная постановка задачи
3. Диагонализация ковариационной матрицы
4. Сингулярное разложение матрицы данных
5. Матрица преобразования к главным компонентам
6. Отбор главных компонент по правилу Кайзера
7. Оценка числа главных компонент по правилу сломанной трости
8. Нормировка
9. Механическая аналогия и метод главных компонент для взвешенных данных
10. Специальная терминология
11. Примеры использования



Матрица A преобразования данных к главным компонентам строится из векторов главных компонент: A=\left \{a_1,...,a_n \right \}^T. Здесь ai — ортонормированные векторы-столбцы главных компонент, расположенные в порядке убывания собственных значений, верхний индекс T означает транспонирование. Матрица A является ортогональной: AA = 1.

После преобразования большая часть вариации данных будет сосредоточена в первых координатах, что даёт возможность отбросить оставшиеся и рассмотреть пространство уменьшенной размерности.

Остаточная дисперсия

Пусть данные центрированы, \overline{ X}=0. При замене векторов данных xi на их проекцию на первые k главных компонент x_i \mapsto \sum_{j=1}^k a_j вносится средний квадрат ошибки в расчете на один вектор данных:

\frac{1}{m} \sum_{i=1}^m \left\Vert x_i - \sum_{j=1}^k a_j \right \Vert ^2=\sum_{l=k+1}^n \lambda_l,

где \lambda_1 \ge \lambda_2 \ge ... \ge \lambda_n \ge 0 собственные значения эмпирической ковариационной матрицы C, расположенные в порядке убывания, с учетом кратности.

Эта величина называется остаточной дисперсией. Величина

\frac{1}{m} \sum_{i=1}^m \left\Vert \sum_{j=1}^k a_j \right \Vert ^2=
\frac{1}{m} \sum_{i=1}^m  \sum_{j=1}^k^2=\sum_{l=1}^k \lambda_l

называется объяснённой дисперсией. Их сумма равна выборочной дисперсии. Соответствующий квадрат относительной ошибки — это отношение остаточной дисперсии к выборочной дисперсии:

\delta^2_k=\frac{\lambda_{k+1}+\lambda_{k+2}+...+\lambda_{n}}{\lambda_{1}+\lambda_{2}+...+\lambda_{n}}.

По относительной ошибке δk оценивается применимость метода главных компонент с проецированием на первые k компонент.

Замечание: в большинстве вычислительных алгоритмов собственные числа λi с соответствующими собственными векторами — главными компонентами ai вычисляются в порядке «от больших λi — к меньшим». Для вычисления δk достаточно вычислить первые k собственных чисел и след эмпирической ковариационной матрицы C, \operatorname{tr} C. Тогда

\delta^2_k=\frac{1}{\operatorname{tr} C}\left.


Просмотров: 23876


<<< Инфографика
Нейронная сеть Кохонена >>>