1. 总体概况
爬虫共运行了近14个小时,最终停止于2016年12月27日下午3点左右。
当其时共有494位QQ好友,其中我有访问权限的是372位,再减去要求不抓取的好友1位,共为371位好友的空间说说。
371位好友共贡献了219840条说说。
最早的一条说说发自腾讯视频官方账号,发表时间是2008年1月11日。而普通好友发表的是早的1条说说则发表于2008年2月8日。
最晚的一条发表于2016年2月27日,即数据抓取时的截止日期。
在这跨越9年108个月共3272天时间里:
平均每年发表说说24426.67条,每人每年发表说说约65.84条;
平均每月发表说说2035.56条,平均每人每月发表说说约5.49条;
平均每日发表说说67.19条,平均每人每日发表说说0.18条。
-----------------------------------------
人均约593条。中位数是300,下四分位数是56,上四分位数是819。说明一半的人在这9年里发表的说说数量少于300条,另一半的人发表的数量则多于300条。而又有一半的人其发表的说说数量在56到819条之间。
2. 时间分析
2.1 按年划分
说说数量从2008年开始递增,并且涨幅较大,直到2012年达到顶峰。当年共发表说说40000多条,日均112条。而2013年开始下降,2014年下降幅度进一步加大,2015年及2016年下降幅度较小且相对稳定。我的好友中大多数为同龄人,2010年高中毕业上大学,2011、2012、2013年为在校期,期间也增加了不少大学里面的好友账号,于是这3年中说说数量的增长或许与此有关。而其后下降,除了由于大学毕业的影响外,微信的流行也是不可忽视的原因之一。
微信自2011年初发布,至2012年春、秋用户数量分别达到1亿、2亿,而在2013年初达到3亿[[1]](http://baike.baidu.com/link?url=5sfuLX9l84SZwO4hJOMRT1RzRn-NO9J3Q4k9Za5cWiTFrVdlwOwQLjPxr_toWUzej80grTlF8BckfZkI7-g0R_1vPM8l7N9u-DlevlxKLea)。其用户数量的增长与此处QQ空间动态数量的变化较为吻合。可预见的是,人们在QQ空间里面发表动态的频率会逐渐降低。
据网络中的统计信息显示,目前QQ的用户更多为95后,而我的QQ好友中95后数量较小,不足以对整体数量产生显著性影响。
2.2 按月划分
注意上图中Y轴坐标是从10000开始的
从月份上看,一年中12个月所发表的说说数量差别并不大。最低值出现在2月份,很明显是由于春节的影响,人们的线下活动多了,线上的活跃度会明显下降。最高值出现在7月,其次是6月。值得注意的是自8月起数量开始减少,10月达到最波谷后开始回升,12月达到另一个波峰。
共有两个上升期,分别是3-7月、10-12月,这两段时间都是在校期,两个波峰估计是快到期末的时候发牢骚多了。
从比例上看各月份的分布则显得更为均匀:
2.3 按日划分
从上图看来,一月之中具体在哪一天发布说说似乎是具有很高的随机性,总体较为均匀。细心点看也还可以看出上半月的数量略多于下半月,下半月整体略有下降的趋势,不知是否因为下半月流量慢慢也捉襟见肘了。31日的数量比其它日期少了约有1/3,或许是因为一年之中31日比其它天数少了约1/3(出现在1、3、5、7、8、10、12月,共7次,1-28都有12次)
2.3.1 一星期内的分布
上图中,0表示周一,1表示周二,以此类推
有点意外的是,一周中各天发表的说说竟然相关无几。其最低值是周一的30876,最高值是周五的32090,两者仅差1214,约4%。饼状图可以更加明显地看出其均匀性:
2.4 按小时划分
各个时间段都有不少人在发说说,而午夜0点到凌晨6点之间发表的说说数量还不在少数,晚上6点到10点期间发表的数量却远少于平均数,这点倒是非常的出乎意料。但经过多次从源数据进行确认,的确是这样。按照人们的上网习惯,应该是18到23点的数据与0到5点的互换才对。莫非夜猫真的那么多,而晚上大家都浪漫去了?
最高点出现在下午3点是合情合的,大多数人在下午2、3点时精神疲乏,相对而言更加难以专心工作/学习,在网上闲逛的频率会相应增加。
3. 手机使用情况
3.1 手机品牌
近22万条说说中,只有3万多条是带有手机标识的。其中最多的是出自于小米(包括其旗下的红米),其次是苹果(包含iPhone和iPad),第三是华为(包括荣耀)。值得注意的是,动态数量多,并不一定说明好友当中使用该品牌的人就多,因为也有可能是用该品牌的人更加喜欢发说说。
3.2 具体型号
众多手机型号中,小米2S发出的说说最多。此处应该提出的是,前5款手机的排名应该是正确的,后面的则可能会有些误差。因为同款手机在QQ空间中显示出来的标识也并不完全相同。如上图中的排最后(第21)的手机荣耀6,我在源数据中看到第22名也还是它,只是名称变成了“华为 荣耀6”,数量为171,第33名也是它,显示的是“荣耀6(4G)”,数量是126。如果把后两个数字加起来再排名,则它可以排到上图中的第7名了。
3.3 “特立独行”者
先说明,此处并没有任何嘲笑或贬低的意思,只是展示一些与众不同的特色点。
对我而言,上图中的10个手机(品牌),海信还算是相对熟悉的,最后一个是富士康,第一个alps有点熟悉,但想不起来。OPSSON不知道是不是做投影仪的那个爱普生,港利通不记得是不是在电脑城里面见过了。剩下的都不认得了。
4. 地域分布
近22万条说说中,带有地理位置信息的只有千分之一,共2224条。
4.1 省份分布
分省份显示如下:
广西、广东已经占据了80%。前10省份如下:
完整的榜单如下:
未知地带里面是一些没有显示省份也没有显示城市的,只显示了道路或者甚至是地铁线路。还有几个是显示广告的,被我去掉了。是这么一些地方:
此处“金鸡路1号”想必对应的是我大学学校所在地了,这个应该不会错。
4.2 城市分布
前五分别是梧州、深圳、佛山、广州、桂林。这顺序到是有点出乎意料之外了。也有几个有意思的地点:
考文垂好像是澳大利亚的城市?还有人去过伊斯坦布尔?忽冷忽热那个肯定是人为修改的了。
In The End
本来我以为每个人发表说说的数量会成正态分布,以为人们发表说说的时间从0-24小时中也会成正态分布,得到的结果显示出来的却并不是这样。
我以为一周中发表说说的时间会有个集中趋势,然而也没有。
这次爬来的数据好像并没有什么好玩有趣的东西,下次爬点别的玩玩。
最后附上程序代码QQzone_crawler - Github