Интернет магазин китайских планшетных компьютеров



Компьютеры - Data mining - Введение

02 мая 2011


Оглавление:
1. Data mining
2. Введение
3. Задачи
4. Этапы обучения



Методы Data Mining лежат на стыке баз данных, статистики и искусственного интеллекта .

Исторический экскурс

Область Data Mining началась с семинара, проведёного Григорием Пятецким-Шапиро в 1989 году.

Ранее, работая в компании GTE Labs, Григорий Пятецкий-Шапиро заинтересовался вопросом: можно ли автоматически находить определённые правила, чтобы ускорить некоторые запросы к крупным базам данных. Тогда же было предложено два термина — Data Mining и Knowledge Discovery In Data.

В 1993 году вышла первая рассылка «Knowledge Discovery Nuggets», а в 1994 году был создан один из первых сайтов по Data Mining.

Постановка задачи

Первоначально, задача ставится следующим образом:

  • имеется достаточно крупная база данных;
  • предполагается, что в базе данных находятся некие «скрытые знания».

Необходимо разработать методы обнаружения знаний, скрытых в больших объёмах исходных «сырых» данных.

Что означает «скрытые знания»? Это должны быть обязательно знания:

  • ранее не известные — то есть такие знания, которые должны быть новыми;
  • нетривиальные — то есть такие, которые нельзя просто так увидеть;
  • практически полезные — то есть такие знания, которые представляют ценность для исследователя или потребителя;
  • доступные для интерпретации — то есть такие знания, которые легко представить в наглядной для пользователя форме и легко объяснить в терминах предметной области.

Этими требования во многом определяют суть методов Data mining и то, в каком виде и в каком соотношении в технологии Data mining используются системы управления базами данных, статистические методы анализа и методы искусственного интеллекта.

Data mining и базы данных

Методы Data mining имеет смысл применять только для достаточно больших баз данных. В каждой конкретной области исследований существует свой критерий «великости» базы данных.

Развитие технологий баз данных сначала привело к созданию специализированного языка — языка запросов к базам данных. Для реляционных баз данных — это язык SQL, который предоставил широкие возможности для создания, изменения и извлечения хранимых данных. Затем возникла необходимость в получении аналитической информации, и тут оказалось, что традиционые реляционные базы данных, хорошо приспособленные, например, для ведения оперативного учёта, плохо приспособлены для проведения анализа. это привело, в свою очередь, к созданию т.н. «хранилищ данных», сама структура которых наилучшим способом соответствует проведению всестроннего математического анализа.

Data mining и статистика

В основе методов Data mining лежат математические методы обработки данных, включая и статистические методы. В промышленных решениях, нередко, такие методы непосредственно включаются в пакеты Data mining. Однако, следует учитывать, что статистические методы, во-первых, основываются на статистической природе анализируемых явлений, а, во-вторых, результаты статистических методов, как правило, являются тривиальными, практически бесполезными и трудно интерпретируемыми, что полностью расходится с целями и задачами Data mining. Тем не менее, статистические методы используются, но их применение ограничивается выполнением только определённых этапов исследования.

Data mining и искусственный интеллект

Знания, добываемые методами Data mining принято представлять в виде моделей. В качестве таких моделей выступают:

  • ассоциативные правила;
  • деревья решений;
  • кластеры;
  • математические функции.

Методы построения таких моделей принято относить к области т.н. «искусственного интеллекта».




Просмотров: 4603


<<< Витрина данных