网易云音乐评论抓取实验(2)朴素贝叶斯入门：通过概率对评论情绪分类

上回网易云音乐评论抓取实验(1)接口获取说到我们已经可以结合爬虫拿到一首歌下面的所有评论了，然而针对这些评论我们又能做些什么分析呢？由于我自己平时魔性洗脑、抒情古风啥的都在听，下面的评论也是哈哈哈表白编段子的都有，所以就在想能不能把评论的情绪做个分类？先看看实验结果吧。

实验效果

输入了三个评论，判断其属于两首歌的概率从而确定归属。（两首歌分别是双笙达拉崩吧和双笙我的一个道姑朋友）

想法由来

把评论爬到之后首先想的就是先做个词云看看这首歌的评论大致是什么画风，比如《权御天下》

权御天下

（呃…这个大哭是emoji里面的笑哭的表情，大家不要误会了）

就是这个表情

好几个大大的笑哭拍到脸上，就知道评论区应该比较欢乐啦~
也就是说，欢乐的歌曲里面出现体现欢乐情绪的评论会更多一些，悲伤的同理。如果从里面随机选评论出来，我们能知道这个评论属于哪首歌吗？

双笙《达拉崩吧》

双笙《我的一个道姑朋友》

这篇文章的例子是以同一个歌手的两首不同风格的歌作为样本，如果样本是两个不同音乐情绪的专辑，那么是不是就可以根据评论分出一首歌是快乐还是忧伤呢？

朴素贝叶斯

当然先是到处查啦，在这里我首先接触到的是这篇文章Python做文本情感分析之情感极性分析 - 简书，提到了两种方法，第一种根据词汇分类判断，第二种基于机器学习暂时还看不懂- -这不是看不懂机器学习嘛，就去看了参考书机器学习实战，发现这个朴素贝叶斯很适合这个分析，因为它举的例子是垃圾邮件分类！感觉和评论分类很像啊！
其核心为一个公式：

贝叶斯公式

Ci(Class)代表第i个分类，向量w(words)代表一句话中的词语，含义为：
出现向量w(w1,w2,w3,…)组成的一句话的前提下，
它属于类别*i*的概率=在类别*i*中出现这句话的概率*任一句子属于类别*i*的概率/出现这句话的概率
而我们需要比较p(c0|w) p(c1|w)谁更大，所以可以忽略这个相同的分母p(w)，代码中我设定两类均使用2000条评论作为样本，所以p(c)也相等可以忽略啦。

“喂喂喂，你快别bb了，你说的啥啊，看不懂！！！”

咳咳…我也一看到公式就发懵…那就直观点说。来看看我们是如何区分的吧，如果看到“哈哈哈哈哈哈”什么的，那就是第一首没跑了；“道姑”“道长”什么的，那就会是第二首啦。也就是特定词汇在两首歌中出现的概率不同。
后续就抄一抄书了。

“朴素”的含义

代码实现

上面提到，我们只需搞定p(w|c)就行了，也就是在各个分类下各个词出现的概率，统计各个词出现的次数，再除以一共有多少个词就好啦！……嗯，我真想给自己一巴掌，说的真轻松呢。

统计出现了哪些词

把所有的评论的词语都扔到集合里，就是所有用到的词了！但是我们为了便于统计出现的次数，还是得用有序的列表啊。大概就是这样一种表示方法：

使用向量表示句子

所以代码的开头是这样的，用来提取爬虫数据，转换为词语，并构造出总的词语列表出来：

import jieba
from numpy import array
from numpy import log
import numpy
import copy
class nativebayes:
    def load(self,songtype):
        with open('%s_comment_train.txt'%str(songtype),encoding='utf-8') as f:
            comments=f.readlines()
        comments_list=[]
        for i in comments:
           comments_list .append(jieba.lcut(i))
        return comments_list

    #将所有出现过的词语转为列表

    def createwordslist(self,comments_list):
        wordsset=set([])
        for words in comments_list:
            wordsset=wordsset|set(words)
        #转换为有序列表
        return list(wordsset)

统计出现的概率

一张图说明如何操作

计算示意图

把每个评论的向量加起来就是出现次数了，再除以总的字数就是每个词语出现的概率了啦。
首先是转换为向量表示

    def words2vec(self,wordslist,comment):
        returnVec=[0]*len(wordslist)
        #在之前已经被切分好了
        for word in comment:
            if word in wordslist:
                #将评论中出现的词在Vector中标记
                returnVec[wordslist.index(word)]=1
        return returnVec

这里是以是否出现作为特征，为词集模型(set-of-words)，如果再细一点，以出现次数作为特征的话，则为词袋模型(bag-of-words)。我想评论里可能存在“啊啊啊啊二狗二狗二狗！！！我爱你我！爱！你！”这种重复就没什么意思，所以就用的词集模型。
然后是计算概率

    #计算p(c1),p(w|c1)
    def trainNB(self,trainMatrix):
        #因为均统计1000条评论，所以概率相等
        p_class=0.5
        #Class中词语的总数 即一个wordslist的长度
        numwords=len(trainMatrix[0])
        words_statics=numpy.ones(numwords)
        words_totalnum=0.0
        for wordslist in trainMatrix:
            #将各个词出现的次数累加
            words_statics+=wordslist
            #统计评论中总的词数
            words_totalnum+=sum(wordslist)
            p_vect=log(words_statics/words_totalnum)
        return p_class,p_vect

注意！注意！这里为什么出现log呢？先看看如果不加log运行过程中p和总词列表是怎样的吧。

词语与对应概率

各个词出现的概率p很小，如果统计的文本（上面的图片仅仅是抓了50条评论得出的结果）特别大的话，最终的乘积p用float64储存也会约等于0，即乘积过小，约等于0。
所以书上的解决方式是把乘积转为求和，即取个对数，反正是比较大小嘛，取对数不会影响。
还有一个地方！为什么统计的变量初始化是words_statics=numpy.ones(numwords)，都要从1开始呢？
这是因为对种类0来说，种类1的词不一定会出现（比如种类1中有个人发了个啥无关痛痒的“特朗普”），所以样本采集之后，P(特朗普|c0)=0，然后我来测试一条新的评论，恰好出现了这个词，就会导致种类0的最终乘积为0，从而仅仅因为一个词导致其最后判定为种类1，有失公允。所以可以把所有词出现次数初始化为1，也不会影响最终结果的裁定。

测试

针对两首歌各写一个评论，再写一个无法分类的评论，来看看测试效果吧：

if __name__=='__main__':
    bayestest=nativebayes()
    totalcomments=[]
    #这里用append 是因为totalcomment[0] [1]分别为两种评论，均为列表
    totalcomments.append(bayestest.load(0))
    totalcomments.append(bayestest.load(1))
    totalcomments_a=copy.deepcopy(totalcomments[0])
    #这里用extend是因为totalcomments_a全为评论
    totalcomments_a.extend(totalcomments[1])
    wordslist=bayestest.createwordslist(totalcomments_a)
    p=[0,0]
    p_wv=[[],[]]
    for i in range(0,2):
        wordslist_matrix=[]
        for comment in totalcomments[i]:
            #将每个评论转换为词组出现的向量形式，并加入总的矩阵中用做统计
            wordslist_matrix.append(bayestest.words2vec(wordslist,comment))
        p[i],p_wv[i]=bayestest.trainNB(array(wordslist_matrix))
        # print(p_wv[i])
    test_commentV_0=bayestest.words2vec(wordslist,jieba.lcut('哈哈哈笑死我了'))
    test_commentV_1=bayestest.words2vec(wordslist,jieba.lcut('剑三的歌！很喜欢的故事！'))
    test_commentV_2=bayestest.words2vec(wordslist,jieba.lcut('双笙的歌真好听！'))
    bayestest.getP(test_commentV_0,p_wv[0],p_wv[1])
    bayestest.getP(test_commentV_1,p_wv[0],p_wv[1])
    bayestest.getP(test_commentV_2,p_wv[0],p_wv[1])

相比于模棱两可的第三条双笙的歌真好听来说，第一条评论哈哈哈笑死我了明显P0>P1，属于第一首歌的情绪风格；第二条针对歌曲来源的评论剑三的歌！很喜欢的故事！P1>P0，属于第二首歌的情绪风格。
咩哈哈哈！表现还挺好的呢！

总结

之前看机器实战的书也看过一会儿，不过这是我第一次实际接触机器学习，果然有实际需求的时候才最有动力学下去。这篇文章也是马马虎虎完成的，可以从中看出我有很多地方都对实际进行了简化，包括P1=P2=0.5等等，有何不当的地方，请大家多多指教^_^，另外感觉NLP这一块挺有趣的，如果我有一个人足够多的评论数据，我是不是能模仿他说话呢？后续准备学习一下这篇文章问答机器人的Python分类器。

代码地址（包括评论爬取、已经爬好的数据、词云、朴素贝叶斯）
Github 163music

最后感谢大家的阅读，如果对你有帮助，不妨点个喜欢吧。
往期批量下载电影排行榜的系列文章：
(番外篇)Python操纵网盘客户端批量离线下载小电影
 Python实现电影排行榜自动网盘下载(4)Cookies免登录+抓包下载
 Python实现电影排行榜自动网盘下载(3)Selenium离线下载
 Python实现电影排行榜自动网盘下载(2)Scrapy深入 “打包员”“快递员”
Python实现电影排行榜自动网盘下载(1)Scrapy爬虫框架
 Python实现电影排行榜自动网盘下载(0)简介

最后编辑于：2017.12.10 01:05:17

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 207,113评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,644评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 153,340评论 0赞 344
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,449评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,445评论 5赞 374
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,166评论 1赞 284
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,442评论 3赞 401
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,105评论 0赞 261
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,601评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,066评论 2赞 325
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,161评论 1赞 334
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,792评论 4赞 323
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,351评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,352评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,584评论 1赞 261
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,618评论 2赞 355
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,916评论 2赞 344