Интернет магазин китайских планшетных компьютеров



Компьютеры - Метод главных компонент - Нормировка

22 января 2011


Оглавление:
1. Метод главных компонент
2. Формальная постановка задачи
3. Диагонализация ковариационной матрицы
4. Сингулярное разложение матрицы данных
5. Матрица преобразования к главным компонентам
6. Отбор главных компонент по правилу Кайзера
7. Оценка числа главных компонент по правилу сломанной трости
8. Нормировка
9. Механическая аналогия и метод главных компонент для взвешенных данных
10. Специальная терминология
11. Примеры использования



Нормировка после приведения к главным компонентам

После проецирования на первые k главных компонент с \lambda_1 \ge \lambda_2 \ge ... \ge \lambda_k > 0 удобно произвести нормировку на единичную дисперсию по осям. Дисперсия вдоль iй главной компоненты равна \lambda_i > 0 \;, поэтому для нормировки надо разделить соответствующую координату на <img class=. Это преобразование не является ортогональным и не сохраняет скалярного произведения. Ковариационная матрица проекции данных после нормировки становится единичной, проекции на любые два ортогональных направления становятся независимыми величинами, а любой ортонормированный базис становится базисом главных компонент. Отображение из пространства исходных данных на первые k главных компонент вместе с нормировкой задается матрицей

K=\left \{\frac{a_1}{\sqrt{ \lambda_1}},\frac{a_2}{\sqrt{ \lambda_2}},...,\frac{a_k}{\sqrt{ \lambda_k}} \right \}^T.

Именно это преобразование чаще всего называется преобразованием Кархунена-Лоэва. Здесь ai — векторы-столбцы, а верхний индекс T означает транспонирование.

Нормировка до вычисления главных компонент

Предупреждение: не следует путать нормировку, проводимую после преобразования к главным компонентам, с нормировкой и «обезразмериванием» при предобработке данных, проводимой до вычисления главных компонент. Предварительная нормировка нужна для обоснованного выбора метрики, в которой будет вычисляться наилучшая аппроксимация данных, или будут искаться направления наибольшего разброса. Например, если данные представляют собой трёхмерные векторы из «метров, литров и килограмм», то при использовании стандартного евклидового расстояния разница в 1 метр по первой координате будет вносить тот же вклад, что разница в 1 литр по второй, или в 1 кг по третьей. Обычно системы единиц, в которых представлены исходные данные, недостаточно точно отображают наши представления о естественных масштабах по осям, и проводится «обезразмеривание»: каждая координата делится на некоторый масштаб, определяемый данными, целями их обработки и процессами измерения и сбора данных.

Есть три cущественно различных стандартных подхода к такой нормировке: на единичную дисперсию по осям, на равную точность измерения и на равные требования в задаче. На выбор предобработки влияют содержательная постановка задачи, а также условия сбора данных.

Предварительная нормировка на единичную дисперсию по осям разрушается поворотом системы координат, если оси не являются главными компонентами, и нормировка при предобработке данных не заменяет нормировку после приведения к главным компонентам.



Просмотров: 23236


<<< Инфографика
Нейронная сеть Кохонена >>>