利用python爬取微博数据

仅为练手之作，代码十分粗糙，只是进行一个思路的总结，勿喷，接受指点

爬取微博电脑版的难度很大(不要问，问就不会)，我们退而求其次选择手机版微博
手机版微博网址
在这里我们选择湖南省博物馆进行爬取
在chrome或者新edge(赛高！！！)中找到湖南省博物馆主页打开
在检查模式中我们不断下拉观察network中xhr的变化

第一个

第二个

我们发现在页面动态加载的过程中 sice_id的变化标志着页面的变化，那么sice_id的规律在哪呢？

example

我们发现sice_id在上一个中cardlistInfo这个字典中有相关的数据
而在mblog中有我们想要的数据

example

程序实现

url太长现在不写了就

导入相关的库

import requests

import json
import pprint
import re

请求url，获取json数据

url = ''
while True:
    headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) +'
                          'AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.163+'
                          ' Safari/537.36 Edg/80.0.361.111' }
    req = requests.get(url, headers=headers).text

    data = json.loads(req)

获取data下的cards， cardlistInfo

 users = data['data']['cards']
 since_id = data['data']['cardlistInfo']
 #print(type(since_id))

我们可以知道sice_id是一个字典，获取其中的since_id

 for k, v in since_id.items():
        if k == 'since_id':
            a = v

对url中的since_id进行变换

url = '......since_id='+str(a)

获取点赞，评论，转发，微博内容等，并以字典形式存储、打印

    mblog = []

    for user in users:
        # pprint.pprint(user['mblog'])
        mblog.append(user['mblog'])
    dic = {}
    for text in mblog:
        #正则表达式去除无用标签
        span = re.sub('<span(.*?)</span>', '', text['text'])
        word = re.sub('<a(.*?)</a>', '', span)
        information = re.sub('<br(.*?)<br />', '', word)
        i = i+1
        dic['序号: '] = i
        dic['时间: '] = text['created_at']
        dic['点赞: '] = text['attitudes_count']
        dic['评论: '] = text['comments_count']
        dic['转发: '] = text['reposts_count']
        dic['内容: '] = information
        for k, v in dic.items():
            print(k, v)

整个程序需要完善的地方还有很多（比如while循环无跳出），在代码效率，数据存储，防反爬取等方面还有很多的不足，接受批评指正一起共同进步

邮箱:lingsy74@foxmail.com

最后编辑于：2020.04.15 16:17:23

禁止转载，如需转载请通过简信或评论联系作者。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 217,826评论 6赞 506
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 92,968评论 3赞 395
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 164,234评论 0赞 354
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,562评论 1赞 293
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,611评论 6赞 392
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,482评论 1赞 302
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,271评论 3赞 418
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,166评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,608评论 1赞 314
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,814评论 3赞 336
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,926评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,644评论 5赞 346
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,249评论 3赞 329
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,866评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,991评论 1赞 269
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,063评论 3赞 370
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,871评论 2赞 354

利用python爬取微博数据

程序实现

推荐阅读更多精彩内容