1.基础知识
1.1 文本分类为有监督学习,需要整理样本,确定样本标签与数目。
1.2文本挖掘是指从大量文本数据中抽取事先未知的、可理解的、最终可用的知识过程
2.文本分类的方法
2.1 基于模式系统
2.2基于分类系统:机器学习的方法采用预分类,通过训练建立分类。
3.构建文本分类项目
中文文本分类技术和流程:
3.1 预处理:去噪
3.2中文分词:分词,去除停用词
3.3构建词向量空间:统计文本词频,生成文本词向量空间
3.4TFIDF:使用TFIDF抽取文本特征
3.5训练分类器
3.6模型评估
4.简单文本分类项目
4.1文本预处理
4.2中文分词
目前所有项目暂时都是用jieba分词
4.3去除停用词,进行词频统计
4.4文本向量化、生向量空间模型
1)对样本进行分词
2)根据已经生成的词典,在相应位置填入该词的词频
3)对生成的向量进行归一化. 常用的特征选择计算方式为TF*IDF TF*RF
4.4.1 特征选择
(1)向量空间模型(VSM)======确定特征集和提取特征
4.4.2 确定特征集
5.特征选择
一般计算方法:词频、卡方公式、信息增益
目前打算尝试的特征选择:Textrank
6.模型训练与预测
当把文本转换成向量形式后,就可以利用算法进行训练和预测。
当前文本分类的算法有:朴素贝叶斯,SVM,KNN,逻辑回归
7.分类结果评估
7.1召回率
7.2准确率
7.3交叉检验