中文文本预处理流程(带你分析每一步)

标签:中文文本预处理
作者:炼己者


本博客所有内容以学习、研究和分享为主,如需转载,请联系本人,标明作者和出处,并且是非商业用途,谢谢!


摘要

  • 机器学习我的理解就是把各种原始的东西变成机器可以理解的东西,然后再用各种机器学习算法来做操作。机器可以理解的东西是什么呢?——向量 。所以不管是图片还是文字,要用机器学习算法对它们进行处理,就要把它们转为向量。
  • 网上大部分都是处理英文文本的资料,本文就以中文文本为例,将原始的文本经过预处理得到文本向量

目录

  • 去除指定无用的符号
  • 让文本只保留汉字
  • 对文本进行jieba分词
  • 去除停用词
  • 将文本转为tfidf向量并输入到算法中

操作流程

1.去除指定无用的符号

我们拿到的文本有时候很有很多空格,或者你不想要的符号,那么你就可以用这个方法去掉所有你不想要的符号。在这里我以空格为例

content = ['  欢迎来到  炼己者的博客','炼己者     带你入门NLP  ']
# 去掉文本中的空格
def process(our_data):
    m1 = map(lambda s: s.replace(' ', ''), our_data)
    return list(m1)
print(process(content))

传入的参数our_data是个列表,此函数可以把文本中的所有空格全部去掉。看一下输出的结果。可以发现,所有的空格都被删掉了

['欢迎来到炼己者的博客', '炼己者带你入门NLP']

2.让文本只保留汉字

这个操作我最喜欢,他可以去掉所有的符号,包括数字、标点、字母等等

content = ['如果这篇文章对你有所帮助,那就点个赞呗!!!','如果想联系炼己者的话,那就打电话:110!!!','想学习NLP,那就来关注呀!^-^']
# 让文本只保留汉字
def is_chinese(uchar):
    if uchar >= u'\u4e00' and uchar <= u'\u9fa5':
        return True
    else:
        return False

def format_str(content):
    content_str = ''
    for i in content:
        if is_chinese(i):
            content_str = content_str + i
    return content_str

# 参函数传入的是每一句话
chinese_list = []
for line in content:
    chinese_list.append(format_str(line))
print(chinese_list)

然后我们来看一下输出的内容,你会发现只剩下中文了。这个操作实在太骚了

['如果这篇文章对你有所帮助那就点个赞呗', '如果想联系炼己者的话那就打电话', '想学习那就来关注呀']

3. 对文本进行jieba分词

首先你得下载jieba这个库,直接pip install jieba即可。
我们就以上面处理好的那句话作为例子来操作

chinese_list = ['如果这篇文章对你有所帮助那就点个赞呗', '如果想联系炼己者的话那就打电话', '想学习那就来关注呀']

# 对文本进行jieba分词
import jieba
def fenci(datas):
    cut_words = map(lambda s: list(jieba.cut(s)), datas)
    return list(cut_words)

print(fenci(chinese_list))

然后你就可以得到分词的结果了

[['如果', '这', '篇文章', '对', '你', '有所', '帮助', '那', '就', '点个', '赞', '呗'],
 ['如果', '想', '联系', '炼己', '者', '的话', '那', '就', '打电话'],
 ['想', '学习', '那', '就', '来', '关注', '呀']]

4.去除停用词

首先你得上网下载一个停用词表,也可以关注我的微信公众号
ZhangyhPico,回复停用词表,就可以拿到了。然后把这份停用词转换为列表
为了方便大家理解,在这里我就假设一个停用词表了,我们以上面分好词的数据为例

# 分好词的数据
fenci_list = [['如果', '这', '篇文章', '对', '你', '有所', '帮助', '那', '就', '点个', '赞', '呗'],
 ['如果', '想', '联系', '炼己', '者', '的话', '那', '就', '打电话'],
 ['想', '学习', '那', '就', '来', '关注', '呀']]

# 停用词表
stopwords = ['的','呀','这','那','就','的话','如果']

# 去掉文本中的停用词
def drop_stopwords(contents, stopwords):
    contents_clean = []
    for line in contents:
        line_clean = []
        for word in line:
            if word in stopwords:
                continue
            line_clean.append(word)
        contents_clean.append(line_clean)
    return contents_clean

print(drop_stopwords(fenci_list,stopwords))

我们来一下结果,对比发现少了一些停用词

[['篇文章', '对', '你', '有所', '帮助', '点个', '赞', '呗'],
 ['想', '联系', '炼己', '者', '打电话'],
 ['想', '学习', '来', '关注']]

我觉得上面的操作也可应用在去除一些你不想要的符号上面,你可以把没有用的符号添加到停用词表里,那么它也会被去掉

5.将文本转为tfidf向量并输入到算法中

最后这一步你可以参照这篇文章操作,使用不同的方法计算TF-IDF值
不过为了完整起见,我在这里给大家再演示一遍操作流程。咱们就以上面去掉停用词的数据为例

word_list = [['篇文章', '对', '你', '有所', '帮助', '点个', '赞', '呗'],
 ['想', '联系', '炼己', '者', '打电话'],
 ['想', '学习', '来', '关注']]

from gensim import corpora,models
dictionary = corpora.Dictionary(word_list)
new_corpus = [dictionary.doc2bow(text) for text in word_list]
tfidf = models.TfidfModel(new_corpus)

tfidf_vec = []
for i in range(len(words)):
    string = words[i]
    string_bow = dictionary.doc2bow(string.split())
    string_tfidf = tfidf[string_bow]
    tfidf_vec.append(string_tfidf)
print(tfidf_vec)

在这里我们就可以得到tfidf向量,这里调用的是gensim库计算的tfidf向量,你也可以直接调用sklearn库来计算tfidf向量,怎么操作看上面的那篇文章,里面都有介绍。我们来看一下得到的tfidf向量长什么样子

[[(0, 0.35355339059327373),
  (1, 0.35355339059327373),
  (2, 0.35355339059327373),
  (3, 0.35355339059327373),
  (4, 0.35355339059327373),
  (5, 0.35355339059327373),
  (6, 0.35355339059327373),
  (7, 0.35355339059327373)],
 [(8, 0.18147115159841573),
  (9, 0.49169813431045906),
  (10, 0.49169813431045906),
  (11, 0.49169813431045906),
  (12, 0.49169813431045906)],
 [(8, 0.2084041054460164),
  (13, 0.5646732768699807),
  (14, 0.5646732768699807),
  (15, 0.5646732768699807)]]

很明显,句子的长度不一样,所以得到的tfidf向量的维度也不一样。那么我们该怎么操作呢?——可以用lsi向量来保证向量的维度一致

# num_topics参数可以用来指定维度
lsi_model = models.LsiModel(corpus = tfidf_vec,id2word = dictionary,num_topics=2)

lsi_vec = []
for i in range(len(words)):
    string = words[i]
    string_bow = dictionary.doc2bow(string.split())
    string_lsi = lsi_model[string_bow]
    lsi_vec.append(string_lsi)
print(lsi_vec)

看一下结果

[[(1, 2.8284271247461907)],
 [(0, 1.6357709481422218)],
 [(0, 1.4464385059387106)]]

sklearn库的机器学习算法很齐全,你可以调用这些算法包来进行操作。但是sklearn里的算法要求数据的格式必须是array格式,所以我们得想办法把gensim计算的tfidf向量格式转化为array格式。按照下面操作即可

from scipy.sparse import csr_matrix
data = []
rows = []
cols = []
line_count = 0
for line in lsi_vec:
    for elem in line:
        rows.append(line_count)
        cols.append(elem[0])
        data.append(elem[1])
    line_count += 1
lsi_sparse_matrix = csr_matrix((data,(rows,cols))) # 稀疏向量
lsi_matrix = lsi_sparse_matrix.toarray() # 密集向量
print(lsi_matrix)

结果长这样

array([[0.        , 2.82842712],
       [1.63577095, 0.        ],
       [1.44643851, 0.        ]])

我们的目的已经达到。肯定有人会问,你为啥不直接调用sklearn里计算tfidf向量的方法,那多方便,多直接。何必这样转换来转换去的。

这是有原因的,假设你的数据量很大,几百万条,那么用sklearn计算的tfidf向量维度会非常大,最后调用机器学习算法包的时候就会报错。如果你调用gensim来计算tfidf向量,然后再采用上述的方法,就可以对向量进行降维了,而且你还可以指定维度。在lsi向量那一步进行操作,num_topics参数可以用来指定维度

总结

以上便是整个中文文本的预处理了,这个流程可以应付大多数的文本处理任务。你把文本转换为向量之后,后面的操作就很容易了,调用sklearn算法包,或者自己写一个机器学习的算法,这些都是有章法可循的。

希望可以帮助到大家,如果你觉得这篇文章对你有一定的帮助,那就点个赞支持一下吧!如果有什么问题的话也可以在文章下面评论,我们一起交流解决问题!


以下是我所有文章的目录,大家如果感兴趣,也可以前往查看
👉戳右边:打开它,也许会看到很多对你有帮助的文章

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,277评论 6 503
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,689评论 3 393
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 163,624评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,356评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,402评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,292评论 1 301
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,135评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,992评论 0 275
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,429评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,636评论 3 334
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,785评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,492评论 5 345
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,092评论 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,723评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,858评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,891评论 2 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,713评论 2 354

推荐阅读更多精彩内容

  • 前面的文章主要从理论的角度介绍了自然语言人机对话系统所可能涉及到的多个领域的经典模型和基础知识。这篇文章,甚至之后...
    我偏笑_NSNirvana阅读 13,906评论 2 64
  • 命名实体识别 命名实体的提出源自信息抽取问题,即从报章等非结构化文本中抽取关于公司活动和国防相关活动的结构化信息,...
    我偏笑_NSNirvana阅读 10,250评论 1 35
  • 主要内容 自然语言输入编码 前馈网络 卷积网络 循环网络(recurrent networks ) 递归网络(re...
    JackHorse阅读 4,124评论 0 2
  • 薛定谔的猫 文:Recycler 106/316.1295 薛定谔的猫,很多人都听说过这个名词,但是不了解其中的内...
    Recycler阅读 605评论 0 0
  • 今晚, 我在下了很大决心后, 也终于按下了那个键, 结束了一切。 过了今晚, 我们不是所谓的兄妹, 不是谈心的知己...
    至暮无成阅读 272评论 1 1