看到一篇数据预处理很全面的文章,所以将链接贴了过来 //www.greatytc.com/p/37e529c8baa9
对上述文章的补充
-
词标准化的方式
- 分词方式
-
最大匹配算法
前向最大匹配算法:
后向最大匹配算法:
-
基于语言模型的分词方法
在进行计算时,会对类乘取log,将类乘转化为log累加,可以避免数值过小
-
拼写纠错
计算出错词与词标中编辑距离最近的单词,这个单词就是正确的词。
利用编辑距离拼写纠错流程:
(1) 判断是否是措词: 当前词在vocab中没有出现,那么当前词就是拼写错误
(2) 生成候选词: 对错词生成编辑距离为1到k的词,然后将生成的词与vocab比较,若生成的词在vocab中就保留,若不在就说明当前词是错词,直接删除。
(3) 利用噪声信道模型来选取候选词
流程如下图所示:
具体可以参考https://zhuanlan.zhihu.com/p/58357300
参考文献: