Hack On Douyu -- 2

在上一篇文章中,主要讲了我获取斗鱼弹幕和某些静态页面的方法,在数据获取到之后,如何有效的组织和存储数据直接关系到后续数据能否可以背有效使用。
为了更直观的说明获取到的这些数据如何组织和使用,我大致花了两张图来说明。

数据存储结构

通过爬虫或是直接通过tcp通讯获取到的斗鱼静态页面数据和弹幕聊天内容数据组织形式如下图所示:


mongodb数据组织结构
mongodb数据组织结构

我使用mongodb来存储和管理数据,把上述的数据存储在名为Douyu的数据库中,将数据分别存于Roominfo、chatmsg、rocket、rocketbyDay四个表中。

静态页面数据存储

其中Roominfo库主要记录通过爬虫获取到的当前开播房间信息,字段主要包括用以纪录数据获取时间的date、开播房间人气audience、房间标题roomtitle、主播名anchor、房间标签tag、当前房间封面图片img、房间标识符roomid。
在实际使用中,可以隔时执行静态页面数据获取脚本从而获取这些数据,通过对audience进行排序可以轻易获取到人气最高的房间,并且能够将这些房间信息以json的格式传输到需要的地方。而audience和tag的组合也可以获取不同类型直播房间人气对比结果。
我在项目中通过服务器上的crontab每隔10分钟执行一次静态页面数据获取任务.

0,10,20,30,40,55 * * *  * python  /path/to/allRooms.py

反应给前端的结果可以通过这个页面看到。

弹幕聊天内容

上一篇说过,最初打算是想要对弹幕聊天内容进行自然语言分析的,但是由于一直没来得及搞,也就搁浅了,对与弹幕聊天内容,只是简要的纪录了包括发送者sender_id、发送时间date和弹幕内容content,由于每次获取的弹幕数据都是获取当时人气最高的房间弹幕,所以弹幕内容大都是什么“白银三杰”、“最强王者”之类的。。。

火箭纪录

自然语言分析没搞成,所以现在的重点工作是纪录观众赠送火箭,通过这些数据做出一些图表。
对火箭信息纪录使用了两个表:rocket和rocketbyDay。
rocket主要是获取实时火箭信息,通过与斗鱼弹幕服务器建立连接,根据弹幕消息类型将赠送火箭的信息获取到,主要包括:赠送者sender_id、接受者recver_id、赠送时间date和礼物类型gift。
rocketbyDay则是通过每天0:05分统计前一天火箭随着时间的分布情况,以天为单位的date、每天火箭总数count和当天火箭具体数据data。
纪录这些内容主要是可以统计出每日逐时礼物赠送情况、每天赠送礼物的土豪排名、受到火箭主播排名等。大致结果可以点击当天火箭信息火箭历史数据查看具体内容。

消息实时转发

上述数据可以看作直播数据中的长时间数据,而其中的一些需要“保鲜”的数据例如在有土豪赠送给主播火箭之后,观众可以在两分钟内到该房间抢鱼丸礼物,对于这种需要“保鲜”的数据,我通过redis的pub/sub来接收和转发,并通过socke.io实时发送给当前打开页面的观众。大致过程如下图所示:


遇到的问题和下一步计划

在实际项目运行中,有好几次出现mongodb莫名其妙挂掉的现象,由于项目运行在腾讯1核心1gb内存的云主机上(学生优惠一个月只要一块钱,23333333),这让我很快想到是不是在写入数据的时候,mongodb占用内存过高导致挂掉(之前在学校做项目的时候曾经见到过mongodb在大量写入数据的时候数据库挂掉的现象)。
于是,打开终端,连接到云主机上, 进入到mongodb目录:

./mongo
use Douyu
db.setProfilingLevel(1)

然后静待下次数据库挂掉。果然在某个整10分钟的时候,数据又数不出来了,重启数据库,打开mongodb客户端:

db.system.profile.find().limit(2)

出现的内容:


正如猜想的那样,果然是由于写入的时候造成了数据库的问题。
这时,机智的我想到了师妹那里还有个闲置的云主机,征用过来做个读写分离试下吧(当然我也想搞个副本集,好多主、好多从、好多分片。。。关键不是没条件嘛)。减轻了服务器负载之后,数据库挂掉的现象没有再出现啦。

到目前为止,项目基本上可以正常运行,在数据操作这方面,打算在增加一些内容,比如分析某个游戏在每天随时间观众人数变化、某个主播直播时段、某个游戏人气变化情况等等。
下一篇内容主要讲后端flask的一些情况以及前后端数据传输方式等。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,126评论 6 481
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,254评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 152,445评论 0 341
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,185评论 1 278
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,178评论 5 371
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,970评论 1 284
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,276评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,927评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,400评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,883评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,997评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,646评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,213评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,204评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,423评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,423评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,722评论 2 345

推荐阅读更多精彩内容

  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 171,498评论 25 707
  • 距离上次更新又有一段时间了,毕业答辩之后,确实和同学们一起出去嗨了一段时间,由于还没入职,在家清净的环境中可以好好...
    wangmengcn阅读 978评论 0 3
  • 在拥有了数据获取和存储的能力之后,如何利用好这些数据成为一个问题。本来也一直打算把之前学习的flask框架用起来,...
    wangmengcn阅读 723评论 0 1
  • 海岸边有一座小山,山上有一幢高楼,那楼很薄,背面已经坍塌。海啸要来了,它的高度正好到高楼的倒数第二层,如果爬到最高...
    妙宗舶攸阅读 653评论 0 0
  • 为什么大家都越来越热衷于红酒! 现代在都市中生活的人们已经越来越注重养生之道了,葡萄酒作为一种酒精饮料除了在西...
    a容人达己阅读 979评论 0 0