【爬虫】简单爬取b站的弹幕列表

最近有朋友在群上面说做个b站某视频的弹幕统计列表,筛选出弹幕最多的那条!那么如何解决这个问题呢?首先肯定是要获取弹幕的列表吧,然后再进行分析吧。筛选出弹幕最多的那条,这个好办用collections可以解决,那么关键的问题应该就在怎么获取b站的弹幕列表了吧。

开发环境:
window7+chrome
idea+python插件
requests+json+beautifulsoup+collections

那解决步骤如下:

  1. 解析视频播放页面链接
  2. 查找弹幕资源所在地
  3. 数据分析 (collections.Counter)
  4. 数据存储(file)
  5. 导出exe

解析视频播放页资源,查找弹幕资源所在

  1. b站的视频链接地址都是https://www.bilibili.com/video/av22068969/
    也就是https://www.bilibili.com/video/+视频av号
  2. 查看下html网页源文件是否包含着弹幕的资源快捷键ctrl+u,选择其中的弹幕内容,发现不存在
  3. 按f12+选择network这个tab查看页面加载的时候的js链接处理


  4. 我们发现弹幕的内容包括在一个xml文件里面,对,而且还没有分页的处理


  5. 那就简单了,获取弹幕的链接列表就是https://comment.bilibili.com/+数字+.xml
  6. 那么下一步就是找到这个数字所对应的链接了

    https://api.bilibili.com/x/player/pagelist?aid={}&jsonp=jsonp.format("av号")

定代码架构:

def get_movie_url(av):pass #获取cid
def get_barrage_list(url):pass #获取列表
def get_barrage_count(list):pass #获取筛选数值
def write_text(content):pass #写进文本

写py代码

l_list = []

def get_movie_url(av):
    response = requests.get(url_get_comment_cid.format(str(av)))
    content = response.content.decode(response.encoding)
    content = json.loads(content)
    for d in content.get('data'):
        cid = d.get('cid')
        get_content(cid)
    print("共有{}条弹幕".format(len(l_list)))
    count = collections.Counter(l_list).most_common()
    writetest(av, l_list)
    writetest(str(av) + "count", count)


def get_barrage_list(cid):
    response = requests.get(url_get_comment.format(str(cid)))
    content = response.content.decode(response.encoding)
    b = bs(content, 'xml')
    for i in b.findChildren('d'):
        l_list.append(i.text)


def write_text(av, l):
    with open(str(av) + '.txt', 'w+', encoding='utf-8') as f:
        for i in l:
            f.write(str(i)+"\n")

使用pyInstanller导出exe

安装pyInstaller ,pip install pyinstaller 最新版本是3.3.1
pyinstaller -F py文件路径
生成exe文件,打开运行,至于下一步想导入excel


好的,就这样写完了。。。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,682评论 6 507
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,277评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 165,083评论 0 355
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,763评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,785评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,624评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,358评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,261评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,722评论 1 315
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,900评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,030评论 1 350
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,737评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,360评论 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,941评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,057评论 1 270
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,237评论 3 371
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,976评论 2 355

推荐阅读更多精彩内容

  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,659评论 18 139
  • 在简书发现一篇有趣的文章:爬虫,走起,用Excel实现5min抓取B站弹幕及初步处理讲到了如何根据开发者工具,获得...
    X_xxieRiemann阅读 4,916评论 2 10
  • 用到的组件 1、通过CocoaPods安装 2、第三方类库安装 3、第三方服务 友盟社会化分享组件 友盟用户反馈 ...
    SunnyLeong阅读 14,618评论 1 180
  • 一、产品概况 Bilibili(又称B站)是国内一家大型弹幕视频分享网站,由站长“@9bishi”于2009年6月...
    寂静之海阅读 47,836评论 4 90
  • 生了巨大儿应注意什么 今天我所说的巨大儿指的是孩子出生后体重超过8斤的婴儿,而不是孕期检查出来的巨大儿。很多人一听...
    万家精灵阅读 185评论 0 1