利用Python扩展库wordcloud实现词频统计(词云) for mac

准备工作

首先安装好python（本文默认版本为3.6）
搭建python运行环境，加载第三方扩展库

pip install re # 正则表达式库
pip install collections # 词频统计库
pip install numpy  # numpy数据处理库
pip install jieba  # 结巴分词
pip install wordcloud # 词云展示库
pip install PIL   # 图像处理库
pip install matplotlib.pyplot # 图像展示库

准备好打算统计文字的文件，命名为article.txt，保存到与程序文件相同目录中
准备一个做背景的图片，命名为background.jpg，同样保存到与程序文件相同目录中

编写代码

开启一个空python文件，命名为 wordcloud.py，输入如下代码

# 导入扩展库
import re # 正则表达式库
import collections # 词频统计库
import numpy as np # numpy数据处理库
import jieba # 结巴分词
import wordcloud # 词云展示库
from PIL import Image # 图像处理库
import matplotlib.pyplot as plt # 图像展示库

# 读取文件
fn = open('article.txt') # 打开文件
string_data = fn.read() # 读出整个文件
fn.close() # 关闭文件

# 文本预处理
pattern = re.compile(u'\t|\n|\.|-|:|;|\)|\(|\?|"') # 定义正则表达式匹配模式
string_data = re.sub(pattern, '', string_data) # 将符合模式的字符去除

# 文本分词
seg_list_exact = jieba.cut(string_data, cut_all = False) # 精确模式分词
object_list = []
remove_words = [u'的', u'，',u'和', u'是', u'随着', u'对于',u'对',u'等',u'能',u'都',u'。',
u' ',u'、',u'中',u'在',u'了',u'通常',u'如果',u'我们',u'需要'] # 自定义去除词库

for word in seg_list_exact: # 循环读出每个分词
    if word not in remove_words: # 如果不在去除词库中
        object_list.append(word) # 分词追加到列表

# 词频统计
word_counts = collections.Counter(object_list) # 对分词做词频统计
word_counts_top10 = word_counts.most_common(10) # 获取前10最高频的词
print (word_counts_top10) # 输出检查

# 词频展示
mask = np.array(Image.open('background.jpg')) # 定义词频背景
wc = wordcloud.WordCloud(
    background_color='white', # 设置背景颜色
    font_path='/System/Library/Fonts/Hiragino Sans GB.ttc', # 设置字体格式
    mask=mask, # 设置背景图
    max_words=200, # 最多显示词数
    max_font_size=100 , # 字体最大值
    scale=32  # 调整图片清晰度，值越大越清楚
)

wc.generate_from_frequencies(word_counts) # 从字典生成词云
image_colors = wordcloud.ImageColorGenerator(mask) # 从背景图建立颜色方案
wc.recolor(color_func=image_colors) # 将词云颜色设置为背景图方案
wc.to_file("/Users/ownpro/Desktop/temp.jpg") # 将图片输出为文件
plt.imshow(wc) # 显示词云
plt.axis('off') # 关闭坐标轴
plt.show() # 显示图像

图片输出

图片没有正常显示新手关于plt.savefig的用法
这里我用plt.savefig("生成图片的路径")来存储生成的云词图。

一开始，将plt.savefig放在plt.show之后，结果只是生成了空白的图。后来在这篇文章《【Python】解决使用plt.savefig保存图片时一片空白》中了解到：

“在plt.show() 后实际上已经创建了一个新的空白的图片（坐标轴），这时候你再plt.savefig() 就会保存这个新生成的空白图片。”

所以，只要把plt.savefig放在plt.show之前即可解决这个问题。

我生成云词图的最后几行代码如下：

plt.imshow(my_wc)
plt.axis("off")
plt.savefig("/Users/ownpro/Desktop/temp.jpg",dpi=200) # 用反斜杠的话会报错
plt.show()

另一种输出图像的方式 .to_file

在WordCloud中，自带.to_file可以将云词图输出到文件（文章源代码使用的方法）

具体方法：将上述代码中plt.savefig一行替换为

wc.to_file("H:/temp/temp.jpg")

即可。

可以发现两种输出方式的区别：

plt.savefig默认尺寸是和终端中显示差不多的缩略版的图（大小432×288），可以通过dpi调节精度改善清晰度，具体可见本文中“图片大小和精度的影响”的描述。

.to_file，则输出的是每个字都精确显示的完整云词图，非常清晰，放大后可以看到连最小的字都是清晰完整地显示，当然默认尺寸也很大。

为方便对比，可见本文后面“WordCloud参数的调节”这部分里scale=2（使用plt.savefig输出，dpi=200）、scale=32（使用plt.savefig输出，dpi=200）、scale=2（使用.to_file输出）的3个云词图。

生成图像清晰度的调节

图片大小和精度的影响
因为这次用plt.savefig默认生成的图感觉不是很清晰，尺寸不够大，所以这里在plt.savefig中加上了参数dpi调整精度。

当然，同样一张图，精度越高，自然尺寸也是越大的。

不过，至于精度调整成多少合适（只为了肉眼看起来清晰），是看情况而定。虽然理论上精度越大就越清晰，但是在遮罩图、词数量等因素确定的情况下，有时候更大的精度只是把图的尺寸放大，但肉眼可见的清晰程度并不会真的就提高。

如果图太小太密集，那么可能是默认精度的局限导致不清晰。需要调整精度参数dpi放大图片。

但是如果图片足够大，字看起来也不小，但是仍然不清晰，或者布局不自然，那么有可能是云词图生成时本身的参数设置问题。可见下面的描述。

WordCloud参数的调节

这里简要讲下几个会影响图像清晰问题的WordCloud的参数：

mask：遮罩图，字的大小布局和颜色都会依据遮罩图生成。其实理论上这对字大小和清晰程度的影响不大，但是遮罩图色和背景色background_color如果易混淆，则可能是一个导致看起来不清晰的因素；另外遮罩图自身各个颜色之间的对比不强烈，也可能使图看起来层次感不够。

比如，一些图明度比较高，再加上背景白色，有可能导致字色太浅（背景色background_color又是白色）于是看起来不够“清晰”。

background_color：背景色，默认黑。这个本来其实也不怎么影响清晰度，但是，就像之前在mask中提到的，如果遮罩图像颜色过浅、背景设置白色，可能导致字看起来“不清晰”。而实际上，我对一个浅色遮罩图分别用白、黑两种背景色后发现，黑色背景的强烈对比之下会有若干很浅也很小的词浮现出来，而之前因背景色、字色过于相近而几乎无法用肉眼看出这些词。
mode：默认“RGB”。根据说明文档，如果想设置透明底色的云词图，那么可以设置background_color=None, mode="RGBA"

生成云词图效果对比，除background_color和mode参数以外其它参数不变：

background_color和mode参数对比词云效果图

max_font_size：最大字号。源文件中也有讲到，图的生成会依据最大字号等因素去自动判断词的布局。经测试，哪怕同一个图像，只要图本身尺寸不一样（比如我把一个300×300的图拉大到600×600再去当遮罩），那么同样的字号也是会有不同的效果。原理想想也很自然，字号决定了字的尺寸，而图的尺寸变了以后，最大字相对于图的尺寸比例自然就变了。所以，需要根据期望显示的效果，去调整最大字号参数值。
min_font_size：最小字号。不设置的情况下，默认是4。尝试了设置比4大的字号，例如8、10，结果就是原本小于设定值且大于4号的词都直接不显示了，其它内容和未设置该值时都一样。
relative_scaling：表示词频和云词图中字大小的关系参数，默认0.5。为0时，表示只考虑词排序，而不考虑词频数；为1时，表示两倍词频的词也会用两倍字号显示。本文中的案例，均用的默认值，未特别设置该参数。
scale：根据说明文档，当云词图很大的，加大该值会比使用更大的图更快，但值越高也会越慢（计算更复杂）。默认值是1。实际测试中，更大的值，确实输出图像看起来更精细（较小较浅的词会颜色更重，也感觉清楚，大的词差异不明显）。不过，可能由于我选的图不大、词也没有很多，所以差距并没有很大，缩小排列一下就基本上辨别不出多少差别了。

经测试发现，在词没有很多（这里len(word_space_split)=6310）和图没有很大的情况下，词不变，图不变，则scale越大，运行速度越慢。实际上，本案例中取“32”时已经比“2”慢了很多秒，这个时间差可以体会体会到，本文暂不对时间差和效率问题进行精确研究了。

另外经测试发现，其它参数完全相同情况下，scale越大，图片占空间越小。这里scale分别取“2”“10”“32”时，获得的图片大小分别为207K、110K、75.8K。（这里图用plt.savefig输出，dpi=200，实际输出尺寸为1200×800。）

下面scale分别取“2”“10”“32”的缩略效果：

scale值对比

是不是没看出什么区别？那么下面放下“2”“32”对应的云词图本身。
scale=2的云词图如下（使用plt.savefig输出，dpi=200）：

scale=2 ply.savefig

scale=32的云词图如下（使用plt.savefig输出，dpi=200）：

scale=32 ply.savefig

scale=2的云词图如下（使用.to_file输出）：

scale=2 to_file

注：可以注意上面3个图中，右上方“唯有”字样的右上角“如同”字样（较小字）的显示差异，进行对比。

random_state：不同的值会让字图的分布不一样。

不同random_state的效果对比

附上源文件wordcloud.py中对WordCloud这一函数的各个参数的解释：

Word cloud object for generating and drawing.

    Parameters
    ----------
    font_path : string
        Font path to the font that will be used (OTF or TTF).
        Defaults to DroidSansMono path on a Linux machine. If you are on
        another OS or don't have this font, you need to adjust this path.

    width : int (default=400)
        Width of the canvas.

    height : int (default=200)
        Height of the canvas.

    prefer_horizontal : float (default=0.90)
        The ratio of times to try horizontal fitting as opposed to vertical.
        If prefer_horizontal < 1, the algorithm will try rotating the word
        if it doesn't fit. (There is currently no built-in way to get only
        vertical words.)

    mask : nd-array or None (default=None)
        If not None, gives a binary mask on where to draw words. If mask is not
        None, width and height will be ignored and the shape of mask will be
        used instead. All white (#FF or #FFFFFF) entries will be considerd
        "masked out" while other entries will be free to draw on. [This
        changed in the most recent version!]

    scale : float (default=1)
        Scaling between computation and drawing. For large word-cloud images,
        using scale instead of larger canvas size is significantly faster, but
        might lead to a coarser fit for the words.

    min_font_size : int (default=4)
        Smallest font size to use. Will stop when there is no more room in this
        size.

    font_step : int (default=1)
        Step size for the font. font_step > 1 might speed up computation but
        give a worse fit.

    max_words : number (default=200)
        The maximum number of words.

    stopwords : set of strings or None
        The words that will be eliminated. If None, the build-in STOPWORDS
        list will be used.

    background_color : color value (default="black")
        Background color for the word cloud image.

    max_font_size : int or None (default=None)
        Maximum font size for the largest word. If None, height of the image is
        used.

    mode : string (default="RGB")
        Transparent background will be generated when mode is "RGBA" and
        background_color is None.

    relative_scaling : float (default=.5)
        Importance of relative word frequencies for font-size.  With
        relative_scaling=0, only word-ranks are considered.  With
        relative_scaling=1, a word that is twice as frequent will have twice
        the size.  If you want to consider the word frequencies and not only
        their rank, relative_scaling around .5 often looks good.

        .. versionchanged: 2.0
            Default is now 0.5.

    color_func : callable, default=None
        Callable with parameters word, font_size, position, orientation,
        font_path, random_state that returns a PIL color for each word.
        Overwrites "colormap".
        See colormap for specifying a matplotlib colormap instead.

    regexp : string or None (optional)
        Regular expression to split the input text into tokens in process_text.
        If None is specified, ``r"\w[\w']+"`` is used.

    collocations : bool, default=True
        Whether to include collocations (bigrams) of two words.

        .. versionadded: 2.0

    colormap : string or matplotlib colormap, default="viridis"
        Matplotlib colormap to randomly draw colors from for each word.
        Ignored if "color_func" is specified.

        .. versionadded: 2.0

    normalize_plurals : bool, default=True
        Whether to remove trailing 's' from words. If True and a word
        appears with and without a trailing 's', the one with trailing 's'
        is removed and its counts are added to the version without
        trailing 's' -- unless the word ends with 'ss'.

    Attributes
    ----------
    ``words_`` : dict of string to float
        Word tokens with associated frequency.

        .. versionchanged: 2.0
            ``words_`` is now a dictionary

    ``layout_`` : list of tuples (string, int, (int, int), int, color))
        Encodes the fitted word cloud. Encodes for each word the string, font
        size, position, orientation and color.

    Notes
    -----
    Larger canvases with make the code significantly slower. If you need a
    large word cloud, try a lower canvas size, and set the scale parameter.

    The algorithm might give more weight to the ranking of the words
    than their actual frequencies, depending on the ``max_font_size`` and the
    scaling heuristic.

转载自
作者：热锅上的刺猬
来源：CSDN
原文：https://blog.csdn.net/heyuexianzi/article/details/76851377

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 211,194评论 6赞 490
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 90,058评论 2赞 385
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 156,780评论 0赞 346
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 56,388评论 1赞 283
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 65,430评论 5赞 384
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,764评论 1赞 290
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,907评论 3赞 406
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,679评论 0赞 266
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 44,122评论 1赞 303
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,459评论 2赞 325
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,605评论 1赞 340
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 34,270评论 4赞 329
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,867评论 3赞 312
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,734评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,961评论 1赞 265
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 46,297评论 2赞 360
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 43,472评论 2赞 348