声明:本文为原创,仅供学习交流,转载请标明出处,若有侵权请及时告知删除。
数据获取:
数据来源:猫眼电影
首先要获取数据,因为网页的评论只能看到10条,显然不够,于是准备从M端抓包找到评论接口。
接口中对我们本次抓取主要有用的参数是offset偏移量以及时间戳,这两个条件限制了抓取的条数。
这里有用户评论的相关数据,我们选取了评论内容、用户名、评分、评论时间、评论获赞量、评论回复量的数据。
接下来导入python的requests包、json包,开始获取分析的数据:
多次调试之后,发现一个时间戳下最多显示1000条评论,所以每次获取1000条后,导出最后一条的评论时间戳,修改url后继续抓取。
数据可视化:
总共获取24700+条评论数据:
评分比列:
首先我们来看下评分的分布状况:
代码如下:
我们可以看出总体上满意程度很高,87%的好评率对国漫电影来说,表现的也相当出色了。当然不排除购票去影院观影的看官本身对该电影的喜欢程度就很高。而且我们留意到给出6分以及下的占据了3.6%,那么这部分观众评论了些什么,笔者会在文末给予分析。
时间序列:
采用matplotlib,我们按照小时为单位,汇总数据,部分代码如下
从可视化结果来看评论集中在“茶余饭后”,忙碌了一天,下班来场愉快的电影。晚上黄金时间(8:00pm~10:00pm)各位看官也是纷纷畅所欲言。
评论字数分布:
代码如下:
可以看出,白蛇的评论用户评论字数集中在20字以内,根据“长尾效应”的解释,我们也可以看出五十字以上“走心”评论也是比较多的。我们接下来看看这些评论都说了些什么呢?
词云图:
部分代码如下:
需注意:scale参数直接影响了词云图出图的像素清晰度,在图比较大的时候,值可以设置的高一点
纵观所有评论,“好看”,“国漫”,“画面”依然是这部电影的代名词,看官的评价还是不错的,笔者去看的时候也被画风惊艳到了。接下来我们依然通过词云图来看下,给出差评的观众都在说些什么呢?
针对低评分的看官,大家火力似乎都集中在剧情上了。近于俗套似乎也是国漫的通病,路漫漫其修远兮。笔者认为19年开年的这个动漫作品总体表现超出了自己的心里预期。还是比较期待国漫的发展的!
当然针对与评论的分析还有很多种方式,比如针对文本的情感分析,展示的维度也是多种多样,大家有什么好的分析角度,欢迎留言,一起学习参考。
K.文