Интернет магазин китайских планшетных компьютеров



Компьютеры - Классификация документов - Постановка задачи

23 января 2011


Оглавление:
1. Классификация документов
2. Постановка задачи
3. Обучающие методы
4. Применение



Имеется множество категорий \mathfrak{C} = \{ c_1, ... , c_{ \left| \mathfrak{C} \right| } \}.

Имеется множество документов \mathfrak{D} = \{ d_1, ... , d_{ \left| \mathfrak{D} \right| } \}.

Неизвестная целевая функция \Phi\colon \mathfrak{C} \times \mathfrak{D} \rightarrow \{ 0, 1 \}.

Необходимо построить классификатор  \Phi^\prime , максимально близкий к Φ.

Имеется некоторая начальная коллекция размеченных документов \mathfrak{R} \subset \mathfrak{C} \times \mathfrak{D}, для которых известны значения Φ. Обычно её делят на «обучающую» и «проверочную» части. Первая используется для обучения классификатора, вторая — для независимой проверки качества его работы.

Классификатор может выдавать точный ответ \Phi^\prime\colon \mathfrak{C} \times \mathfrak{D} \rightarrow \{ 0, 1 \} или степень подобия \Phi^\prime\colon \mathfrak{C} \times \mathfrak{D} \rightarrow.

Этапы обработки

Индексация документов 
Построение некоторой числовой модели текста, например в виде многомерного вектора слов и их веса в документе. Уменьшение размерности модели.
Построение и обучение классификатора 
Могут использоваться различные методы машинного обучения: решающие деревья, наивный байесовский классификатор, нейронные сети, метод опорных векторов и др.
Оценка качества классификации 
Можно оценивать по критериям полноты, точности, сравнивать классификаторы по специальным тестовым наборам.


Просмотров: 4113


<<< Задача классификации