文本预处理
(1)分句 替换\n
(2)分词 jiabe jiagu,hanlp,pkuseg
(3)取出标点 ,.?"";
(4)取出停用词
tf-idf
(1)词带
(2)tf
第一步,计算词频。
考虑到文章有长短之分,为了便于不同文章的比较,进行"词频"标准化。
或者
第二步,计算逆文档频率。
这时,需要一个语料库(corpus),用来模拟语言的使用环境。
如果一个词越常见,那么分母就越大,逆文档频率就越小越接近0。分母之所以要加1,是为了避免分母为0(即所有文档都不包含该词)。log表示对得到的值取对数。
第三步,计算TF-IDF。
tf_idf的功能
(1) 获得关键词
(2)文本相似性
(3)摘要
(4)文章主题