Интернет магазин китайских планшетных компьютеров



Компьютеры - Data mining - Этапы обучения

02 мая 2011


Оглавление:
1. Data mining
2. Введение
3. Задачи
4. Этапы обучения



Выделяется типичный ряд этапов решения задач методами Data Mining:

  1. Формирование гипотезы;
  2. Сбор данных;
  3. Подготовка данных;
  4. Выбор модели;
  5. Подбор параметров модели и алгоритма обучения;
  6. Обучение модели;
  7. Анализ качества обучения, если неудовлетворительный переход на п. 5 или п. 4;
  8. Анализ выявленных закономерностей, если неудовлетворительный переход на п. 1, 4 или 5.

Подготовка данных

Перед использованием алгоритмов Data Mining необходимо произвести подготовку набора анализируемых данных. Так как ИАД может обнаружить только присутствующие в данных закономерности, исходные данные с одной стороны должны иметь достаточный объем, чтобы эти закономерности в них присутствовали, а с другой — быть достаточно компактными, чтобы анализ занял приемлемое время. Чаще всего в качестве исходных данных выступают хранилища или витрины данных. Подготовка необходима для анализа многомерных данных до кластеризации или интеллектуального анализа данных.

Далее данные очищаются. Очистка удаляет выборки с шумами и пропущенными данными.

Очищенные данные сводятся к векторам признаков, один вектор на выборку. Вектор признаков — это суммарная версия сырых данных выборки. Например, черно-белое изображение лица размером 100×100 пикселей содержит 10 тыс. бит сырых данных. Они могут быть преобразованы в вектор признаков путем обнаружения в изображении глаз и рта. В итоге происходит уменьшение объема данных с 10 тыс. бит до списка кодов положения, значительно уменьшая объем анализируемых данных, а значит и время анализа. Выбор функции будет зависеть от того, что является целью анализа; выбор «правильной» функции имеет основополагающее значение для успешного интеллектуального анализа данных.

Векторы признаков делятся на две категории — обучающий набор и тестовый набор. Обучающий набор используется для «обучения» алгоритма Data Mining, а тестовый набор — для проверки найденных закономерностей.



Просмотров: 2407


<<< Витрина данных