上回网易云音乐评论抓取实验(1)接口获取说到我们已经可以结合爬虫拿到一首歌下面的所有评论了,然而针对这些评论我们又能做些什么分析呢?由于我自己平时魔性洗脑、抒情古风啥的都在听,下面的评论也是哈哈哈表白编段子的都有,所以就在想能不能把评论的情绪做个分类?先看看实验结果吧。
输入了三个评论,判断其属于两首歌的概率从而确定归属。(两首歌分别是双笙 达拉崩吧 和 双笙 我的一个道姑朋友)
想法由来
把评论爬到之后首先想的就是先做个词云看看这首歌的评论大致是什么画风,比如《权御天下》
(呃…这个
大哭
是emoji里面的笑哭
的表情,大家不要误会了)
好几个大大的 笑哭 拍到脸上,就知道评论区应该比较欢乐啦~
也就是说,欢乐的歌曲里面出现体现欢乐情绪的评论会更多一些,悲伤的同理。如果从里面随机选评论出来,我们能知道这个评论属于哪首歌吗?
这篇文章的例子是以同一个歌手的两首不同风格的歌作为样本,如果样本是两个不同音乐情绪的专辑,那么是不是就可以根据评论分出一首歌是快乐还是忧伤呢?
朴素贝叶斯
当然先是到处查啦,在这里我首先接触到的是这篇文章Python做文本情感分析之情感极性分析 - 简书,提到了两种方法,第一种根据词汇分类判断,第二种基于机器学习暂时还看不懂- -这不是看不懂机器学习嘛,就去看了参考书机器学习实战 ,发现这个朴素贝叶斯很适合这个分析,因为它举的例子是垃圾邮件分类!感觉和评论分类很像啊!
其核心为一个公式:
Ci(Class)代表第i个分类,向量w(words)代表一句话中的词语,含义为:
出现向量w(w1,w2,w3,…)组成的一句话的前提下,
它属于类别*i*的概率
=在类别*i*中出现这句话的概率
*任一句子属于类别*i*的概率
/出现这句话的概率
而我们需要比较p(c0|w) p(c1|w)谁更大,所以可以忽略这个相同的分母p(w),代码中我设定两类均使用2000条评论作为样本,所以p(c)也相等可以忽略啦。
“喂喂喂,你快别bb了,你说的啥啊,看不懂!!!”
咳咳…我也一看到公式就发懵…那就直观点说。来看看我们是如何区分的吧,如果看到“哈哈哈哈哈哈”什么的,那就是第一首没跑了;“道姑”“道长”什么的,那就会是第二首啦。也就是特定词汇在两首歌中出现的概率不同。
后续就抄一抄书了。
代码实现
上面提到,我们只需搞定p(w|c)就行了,也就是在各个分类下各个词出现的概率,统计各个词出现的次数,再除以一共有多少个词就好啦!……嗯,我真想给自己一巴掌,说的真轻松呢。
统计出现了哪些词
把所有的评论的词语都扔到集合里,就是所有用到的词了!但是我们为了便于统计出现的次数,还是得用有序的列表啊。大概就是这样一种表示方法:
所以代码的开头是这样的,用来提取爬虫数据,转换为词语,并构造出总的词语列表出来:
import jieba
from numpy import array
from numpy import log
import numpy
import copy
class nativebayes:
def load(self,songtype):
with open('%s_comment_train.txt'%str(songtype),encoding='utf-8') as f:
comments=f.readlines()
comments_list=[]
for i in comments:
comments_list .append(jieba.lcut(i))
return comments_list
#将所有出现过的词语转为列表
def createwordslist(self,comments_list):
wordsset=set([])
for words in comments_list:
wordsset=wordsset|set(words)
#转换为有序列表
return list(wordsset)
统计出现的概率
一张图说明如何操作
把每个评论的向量加起来就是出现次数了,再除以总的字数就是每个词语出现的概率了啦。
首先是转换为向量表示
def words2vec(self,wordslist,comment):
returnVec=[0]*len(wordslist)
#在之前已经被切分好了
for word in comment:
if word in wordslist:
#将评论中出现的词在Vector中标记
returnVec[wordslist.index(word)]=1
return returnVec
这里是以是否出现作为特征,为词集模型(set-of-words),如果再细一点,以出现次数作为特征的话,则为词袋模型(bag-of-words)。我想评论里可能存在“啊啊啊啊二狗二狗二狗!!!我爱你我!爱!你!”这种重复就没什么意思,所以就用的词集模型。
然后是计算概率
#计算p(c1),p(w|c1)
def trainNB(self,trainMatrix):
#因为均统计1000条评论,所以概率相等
p_class=0.5
#Class中词语的总数 即一个wordslist的长度
numwords=len(trainMatrix[0])
words_statics=numpy.ones(numwords)
words_totalnum=0.0
for wordslist in trainMatrix:
#将各个词出现的次数累加
words_statics+=wordslist
#统计评论中总的词数
words_totalnum+=sum(wordslist)
p_vect=log(words_statics/words_totalnum)
return p_class,p_vect
注意!注意!这里为什么出现log
呢?先看看如果不加log
运行过程中p和总词列表是怎样的吧。
各个词出现的概率p很小,如果统计的文本(上面的图片仅仅是抓了50条评论得出的结果)特别大的话,最终的乘积p用float64储存也会约等于0,即乘积过小,约等于0。
所以书上的解决方式是把乘积转为求和,即取个对数,反正是比较大小嘛,取对数不会影响。
还有一个地方!为什么统计的变量初始化是
words_statics=numpy.ones(numwords)
,都要从1开始呢?这是因为对种类0来说,种类1的词不一定会出现(比如种类1中有个人发了个啥无关痛痒的“特朗普”),所以样本采集之后,
P(特朗普|c0)=0
,然后我来测试一条新的评论,恰好出现了这个词,就会导致种类0的最终乘积为0,从而仅仅因为一个词导致其最后判定为种类1,有失公允。所以可以把所有词出现次数初始化为1,也不会影响最终结果的裁定。
测试
针对两首歌各写一个评论,再写一个无法分类的评论,来看看测试效果吧:
if __name__=='__main__':
bayestest=nativebayes()
totalcomments=[]
#这里用append 是因为totalcomment[0] [1]分别为两种评论,均为列表
totalcomments.append(bayestest.load(0))
totalcomments.append(bayestest.load(1))
totalcomments_a=copy.deepcopy(totalcomments[0])
#这里用extend是因为totalcomments_a全为评论
totalcomments_a.extend(totalcomments[1])
wordslist=bayestest.createwordslist(totalcomments_a)
p=[0,0]
p_wv=[[],[]]
for i in range(0,2):
wordslist_matrix=[]
for comment in totalcomments[i]:
#将每个评论转换为词组出现的向量形式,并加入总的矩阵中用做统计
wordslist_matrix.append(bayestest.words2vec(wordslist,comment))
p[i],p_wv[i]=bayestest.trainNB(array(wordslist_matrix))
# print(p_wv[i])
test_commentV_0=bayestest.words2vec(wordslist,jieba.lcut('哈哈哈笑死我了'))
test_commentV_1=bayestest.words2vec(wordslist,jieba.lcut('剑三的歌!很喜欢的故事!'))
test_commentV_2=bayestest.words2vec(wordslist,jieba.lcut('双笙的歌真好听!'))
bayestest.getP(test_commentV_0,p_wv[0],p_wv[1])
bayestest.getP(test_commentV_1,p_wv[0],p_wv[1])
bayestest.getP(test_commentV_2,p_wv[0],p_wv[1])
相比于模棱两可的第三条
双笙的歌真好听
来说,第一条评论哈哈哈笑死我了
明显P0>P1,属于第一首歌的情绪风格;第二条针对歌曲来源的评论剑三的歌!很喜欢的故事!
P1>P0,属于第二首歌的情绪风格。咩哈哈哈!表现还挺好的呢!
总结
之前看机器实战的书也看过一会儿,不过这是我第一次实际接触机器学习,果然有实际需求的时候才最有动力学下去。这篇文章也是马马虎虎完成的,可以从中看出我有很多地方都对实际进行了简化,包括P1=P2=0.5等等,有何不当的地方,请大家多多指教^_^,另外感觉NLP这一块挺有趣的,如果我有一个人足够多的评论数据,我是不是能模仿他说话呢?后续准备学习一下这篇文章问答机器人的Python分类器。
代码地址(包括评论爬取、已经爬好的数据、词云、朴素贝叶斯)
Github 163music
最后感谢大家的阅读,如果对你有帮助,不妨点个喜欢吧。
往期批量下载电影排行榜的系列文章:
(番外篇)Python操纵网盘客户端批量离线下载小电影
Python实现电影排行榜自动网盘下载(4)Cookies免登录+抓包下载
Python实现电影排行榜自动网盘下载(3)Selenium离线下载
Python实现电影排行榜自动网盘下载(2)Scrapy深入 “打包员”“快递员”
Python实现电影排行榜自动网盘下载(1)Scrapy爬虫框架
Python实现电影排行榜自动网盘下载(0)简介