自然语言处理N天-Day0101中文自然语言处理的完整机器处理流程

新建 Microsoft PowerPoint 演示文稿 (2).jpg

说明:本文依据《中文自然语言处理入门实战》完成。目前网上有不少转载的课程,我是从GitChat上购买。

第一课 中文自然语言处理的完整机器处理流程

教程从对象和内容对NLP的技术点进行了划分。教程认为不够完整,但是又不提出一个完整的来……

主要流程

  • 获取语料
  • 语料预处理
  • 特征工程
  • 特征选择
  • 模型训练
  • 评价指标
  • 模型上线应用
  • 模型重构

获取语料

语料库Corpus:一个文本集合
语料库集合Corpora:多个文本集合

常规语料库获取

已有的语料库,或是从网上获取标准开放数据集。教程提到中文汉语有搜狗语料、人民日报语料,同时另一个业内公认的语料库是WIKI中文语料库。
该语料库获取方式:
https://dumps.wikimedia.org/zhwiki/20181201/
在该网站获取,有两类可以下载使用,读者可以选择最新的

  1. zhwiki-20181201-pages-articles1.xml-p1p162886.bz2 这个是WIKI中文的articles1,你会发现还有2、3、4、5……大小在150mb左右,适用于小型模型
  2. zhwiki-20181201-pages-articles.xml.bz2 这个是WIKI中文的articles,应该是上面几个的整合,大小在1.5G左右

语料预处理

在一个完整的中文自然语言处理工程应用中,语料预处理大概会占到整个50%-70%的工作量,所以开发人员大部分时间就在进行语料预处理。下面通过数据洗清、分词、词性标注、去停用词四个大的方面来完成语料的预处理工作。
1.数据清洗
在语料中找到感兴趣的东西,把不感兴趣的、视为噪音的内容清洗删除。
包括对于原始文本提取标题、摘要、正文等信息,对于爬取的网页内容,去除广告、标签、HTML、JS 等代码和注释等。常见的数据清洗方式有:人工去重、对齐、删除和标注等,或者规则提取内容、正则表达式匹配、根据词性和命名实体提取、编写脚本或者代码批处理等。
记住一条Rubbish in Rubbish out,刚开始嫌烦没有做好,会很大程度影响到后续工作。做好原始数据的保存,最好能保存下每一步的操作记录,方便回溯。

2.分词
中文语料数据为一批短文本或者长文本,比如:句子,文章摘要,段落或者整篇文章组成的一个集合。一般句子、段落之间的字、词语是连续的,有一定含义。而进行文本挖掘分析时,我们希望文本处理的最小单位粒度是词或者词语,所以这个时候就需要分词来将文本全部进行分词。
常见的分词算法

  • 基于字符串匹配的分词方法
  • 基于理解的分词方法
  • 基于统计的分词方法
  • 基于规则的分词方法
    当前中文分词算法的主要难点有歧义识别和新词识别。
    目前新词识别大多使用CNN处理,HanLP有成熟的接口使用。文本消歧还没有看。

3.词性标注
就是对文本的每一句话拆分之后,每一个元素在该语句中的词属性。英文使用Spacy,中文使用HanLP都可以得到不错的结果。
常见的词性标注方法可以分为基于规则和基于统计的方法。

  • 基于最大熵的词性标注
  • 基于统计最大概率输出词性
  • 基于 HMM 的词性标注。

4.去停用词
有现成的停用词表,另外用户也可以自定义。

特征工程

将分词后的结果转换为能够计算的类型(就是向量)。
两种常见模型:BOW词袋模型和Word2vec词向量模型。
Word2Vec主要包含两个模型:跳字模型(Skip-Gram)和连续词袋模型(Continuous Bag of Words,简称 CBOW),以及两种高效训练的方法:负采样(Negative Sampling)和层序Softmax(Hierarchical Softmax)。
值得一提的是,Word2Vec 词向量可以较好地表达不同词之间的相似和类比关系。除此之外,还有一些词向量的表示方式,如 Doc2Vec、WordRank 和 FastText 等。

特征选择

文本特征一般都是词语,具有语义信息,使用特征选择能够找出一个特征子集,其仍然可以保留语义信息;但通过特征提取找到的特征子空间,将会丢失部分语义信息。所以特征选择是一个很有挑战的过程,更多的依赖于经验和专业知识,并且有很多现成的算法来进行特征的选择。
说了一堆等于没有说。
常见的特征选择方法教程中列举了这些缩写,很不负责,还是说默认学习者都会了?

  • DF (Document Frequency)文档频率。通过统计特征词出现的文档数量,用来衡量某个特征词的重要性
  • MI (Mutual Information)互信息法。用于衡量特征词与文档类别直接的信息量。互信息值表示特征项与类别的共现程度,互信息值越大,则两者的共现概率越大。
  • IG (Information Gain)信息增益法。通过某个特征词的缺失与存在的两种情况下,语料中前后信息的增加,衡量某个特征词的重要性。
  • CHI (Chi-square)卡方检验法。表示特征项与类别的相关程度,统计量值越大,则两者的相关程度越高。
  • WLLR (Weighted Log Likelihood Ration)加权对数似然。
  • WFO (Weighted Frequency and Odds)加权频率和可能性
    我之前用的比较多的似乎是DF和MI。

模型训练

就是之前学习的机器学习和深度学习模型。
机器学习模型:KNN、SVM、Naive Bayes、决策树、GBDT、K-means 等
深度学习模型:CNN、RNN、LSTM、 Seq2Seq、FastText、TextCNN 等

评价指标

就是对分类器的评估,看之前的教程即可https://www.toutiao.com/i6640740320759775748/

模型上线应用

  1. 线下训练模型,然后将模型做线上部署,发布成接口服务以供业务系统使用。
  2. 在线训练,在线训练完成之后把模型 pickle 持久化,然后在线服务接口模板通过读取 pickle 而改变接口服务。

模型重构

随着时间和变化,可能需要对模型做一定的重构,包括根据业务不同侧重点对上面提到的一至七步骤也进行调整,重新训练模型进行上线。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,837评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,551评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,417评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,448评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,524评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,554评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,569评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,316评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,766评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,077评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,240评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,912评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,560评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,176评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,425评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,114评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,114评论 2 352

推荐阅读更多精彩内容