不同歌手的粉丝们都在什么时候听歌?

I.采集部分(不感兴趣可以直接跳到数据部分)

工具:python+selenium包+excel
素材来源:网易云音乐歌曲的评论区-评论的时间
主要用的是利用selenium的自动化测试工具抓取,因为对爬虫也是正在学习,对于怎么抓内嵌的frame里的内容唯一想到的就是用selenium(对此有更高效的方法欢迎指点)。
程序非常简单:

from selenium import web driver
#歌手主页的url地址
def wangyi(url=u'http://music.163.com/#/artist?id=37995'):
    py_web=webdriver.Firefox()    
    py_web.get(url)    
    #切换到包涵内容的frame
    py_web.switch_to_frame('g_iframe')    
    songlinks=[]    
    for obj_a in py_web.find_elements_by_xpath("//tr"):        
       songlink = obj_a.find_element_by_tag_name('a').get_attribute('href') 
       songlinks.append(songlink)
#由此得到该歌手主页下的最热50首歌,我们将songlinks内的歌曲下的评论时间进行抓取
    comments_time = {}
    #开始每首歌评论抓取
    for song in song links:
      py_web.get(song)            
      py_web.switch_to_frame('g_iframe') 
      #第一页的评论时间抓取       
      for comment in py_web.find_elements_by_xpath("//div[@class='time s-fc4']"): 
         #每个comment的text是该条评论的时间  
         comment_clock=comment.text   
         #我们只需要那些带‘:’的评论,即能确定到小时的         
         if u':' in comment_clock:  
             #提取出评论的小时时间              
             hour = comment_clock.split(u':')[0][-2:]                
             comments_time.setdefault(hour,0)                
             comments_time[hour]+=1        
         #为了减少抓取时候评论集中带来的误差,同时增加样本,我们多抓25页的评论
         for i in range(25):            
             if len(py_web.find_elements_by_xpath("//a[@href='#']"))>3:  
                #我们直接找到'下一页'的按钮,click后对评论翻页再抓,直到结束-出现'js=disable'或抓完25+1页
                next = py_web.find_elements_by_xpath("//a[@href='#']")[-3]                
                if u'js-disabled' not in next.get_attribute("class"): 
                      next.click()                    
                      time.sleep(0.5) 
                      #下面是与抓第一页评论相同的,应该可以简化代码
                      for comment in py_web.find_elements_by_xpath("//div[@class='time s-fc4']"):     
                          comment_clock=comment.text                        
                          if u':' in comment_clock:                            
                              hour = comment_clock.split(u':')[0][-2:]     
                              comments_time.setdefault(hour,0)      
                              comments_time[hour]+=1
    return comments_time

以上就是抓取一个歌手下评论时间的代码了,还是欢迎建议。

II.数据部分

对歌手A有comment_number=[a0,a1,a2......,a23]。每个歌手歌曲的评论数量当然不同,为了方便比较,对其求和sum_A,然后转换为概率comment_p=[a0/sum_A,a1/sum_A,......,a23/sum_A]。
好了,根据个人选择,我抓取了几个歌手得到了以下的表格(先声明,我并不是所有人的歌迷啊,只是好奇):


各歌手时间p分布.jpg

拿来直接画图,看看总体分布:


各歌手下评论时间走势.jpg

线比较混乱,不过可以看到的是总体上大家作息很是类似的,其中21点后到23点间评论量增加趋势的歌手是:陈奕迅、李志、万青、Nirvana、枪花,而周杰伦、TF-Boy、张杰的歌迷21点后都开始放缓了。同样在0点看活跃度,周杰伦、比伯,张杰,TF-Boy与其他几位分开还是比较明显的。其中,我自己比较好奇的是Kendrick Lamar(说唱)的活跃度在21点后就不高了,其一可能是因为他的评论样本与其他几位比非常少(个人比较喜欢所以硬加的),其二可能真的大晚上听的人少。

光这么看还不够,我们计算一下各个歌手comment_p之间的差异度吧。A,B歌手之间的对比,先用comment_p_A-comment_p_B得到diff_comment_p,再对diff_comment_p做均方误差。得到下列结果:


各歌手评论活跃时间之间差异度.jpg

这个结果还是比较乱,我们做单人比较,对Guns&Roses来说,与其差异度最小的是涅槃Nirvana(0.00530),差异度最大的是TF-Boy(0.01),将这三者comment_p做个雷达图比较,如下:

Guns&Roses VS Nirvana VS TF-Boy.jpg

嗯,不管是大朋友还是小朋友,23点以后就应该睡觉了。

再看看我比较喜欢的逼哥吧,与李志差异度较小的是陈奕迅(0.00256,全场最小),万青(0.00409),差异比较大的拿杰伦(0.010)跟TF-Boy(0.01191)。比较如下:

李志 VS 万青 VS TF-Boy VS 周杰伦 VS 陈奕迅.jpg

可以看出最明显的是峰值差异,李志、万青、陈奕迅峰值都出现在24点,而TF-Boy、周杰伦峰值出现在22点。

此外我的抓取是在大早上做的,所以可能靠前的评论都是昨天深夜的,那么粉丝多的,评论增加频繁的比如陈奕迅,周杰伦等可能在23,24点会偏大,这点可以通过抓取更多评论抵消一点偏差。所以需要更有效率的抓法,用selenium的还是稍慢。

有时间可以拿不同大类(流行,摇滚,民谣等等)下的一些歌手作为共同样本,来做曲风不同听歌时间之间差异比较。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 227,401评论 6 531
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 98,011评论 3 413
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 175,263评论 0 373
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 62,543评论 1 307
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 71,323评论 6 404
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 54,874评论 1 321
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 42,968评论 3 439
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 42,095评论 0 286
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 48,605评论 1 331
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 40,551评论 3 354
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 42,720评论 1 369
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 38,242评论 5 355
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 43,961评论 3 345
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 34,358评论 0 25
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 35,612评论 1 280
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 51,330评论 3 390
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 47,690评论 2 370

推荐阅读更多精彩内容

  • 淳享下午学习双节棍,课堂上,孩子们好兴奋,课间休息时,一手一个双节棍不停乱甩,好担心会伤到人,果然不出所料,...
    淳淳的妈妈阅读 267评论 0 4
  • 今天画得倒是很快,但是看书找关键词的过程实在是太漫长了,非常的累,但我想,这就是提升专注力的表现。只有专注,才有收...
    生如夏花CWP阅读 388评论 1 3
  • 时间过得很快,这个我最早开通也是我最在意的空间几乎快要荒芜了。我长时间没有在这里写一篇文章,空间的美感已经悄悄褪去...
    二马行空阅读 260评论 0 2
  • 最近听得最多的就是挖掘原动力,何谓原动力,度娘说“原动力指原来的、先前的动力,原始的动力,天生就有的,不需要外界环...
    汪凌眉阅读 1,012评论 0 2