Python爬虫如-何爬取ajax网页之爬取雪球网文章

1.效果图

在这里插入图片描述

2.传送门点击传送门

3.发工具之后，往下滑时会出现一个接口（当然滑的越多接口越多）

在这里插入图片描述

4.我们通过对比两个及以上的接口进行分析它们的不同之处（这叫找规律）
可以发现max_id是在变化的，其他都是不变的，而且count是返回的文章数目有15个，所以max_id只要自增15就可以实现翻页了，是不是很简单

在这里插入图片描述

5.我们可以这么写代码实现翻页（这代码只是举例子怎么写翻页，不代表最终的代码），这里我取max_id开始的地方是20333000（小伙伴们可以自己去找一下max_id的有效范围），如下

max_id = 20333000
while True:
    # 请求的url
    url = 'https://xueqiu.com/v4/statuses/public_timeline_by_category.json?since_id=-1&max_id={}&count=15&category=-1'.format(max_id)
    # 返回来的数据是json格式
    resp = requests.get(url, headers=headers).json()
    max_id += 15

6.接下来分析一下返回来的数据，以便我们进行抓取，通过下图我们可以发现每一篇文章都是存储在列表这个键当中的，所以我们先取出list这个键

在这里插入图片描述

代码如下：

# 我们需要的数据存在一个列表之中，先取出这个列表
lists = resp.get('list')

7.再看每一篇文章的信息，将data的信息复制粘贴到json.cn这个网站去查看json的信息，可以发在data中取出我们需要的信息

在这里插入图片描述

for temp in lists:
    # 数据在每一个元素中的data键中，取出data
    data = temp.get('data')
    # 取出来的data是一个str类型，我们需要将其转换成dict的类型方可操作
    data = json.loads(data)
    # 判断data是否存在
    if data:
        # 获取文章的题目
        title = data.get('title')
        # 如果没有题目，就continue，因为通过我的观察，没有title的一般是广告之类的
        if not title:
            continue
        # 获取摘要
        description = data.get('description')
        # 数据清洗，使用正则表达式的sub方法
        description = re.sub(r'<a.*?>|</a>|<img.*?/>', '', description)
        # 获取用户的信息，用户的信息在data里边的user键中
        user_name = data.get('user').get('screen_name')
        # 获取是什么类型的文章
        column = temp.get('column')
        # 获取发表的时间戳
        created_at = data.get('created_at')
        # 获取阅读人数
        view_count = data.get('view_count')

        # 声明一个字典存储数据
        data_dict = {}
        data_dict['title'] = title
        data_dict['description'] = description
        data_dict['user_name'] = user_name
        data_dict['column'] = column
        data_dict['created_at'] = created_at
        data_dict['view_count'] = view_count

        print(data_dict)

8.最后就是将数据保存到文件中，其中data_list是我在前面一开始就声明的了

# 将数据写入json文件
with open('data_json.json', 'a+', encoding='utf-8-sig') as f:
    json.dump(data_list, f, ensure_ascii=False, indent=4)
print('json文件写入完成')

# 将数据写入csv文件
with open('data_csv.csv', 'w', encoding='utf-8-sig', newline='') as f:
    # 表头
    title = data_list[0].keys()
    # 声明writer
    writer = csv.DictWriter(f, title)
    # 写入表头
    writer.writeheader()
    # 批量写入数据
    writer.writerows(data_list)
print('csv文件写入完成')

9.完整代码

完整代码公众号回复'雪球网'关键字即可

公众号：pythonislover

记得要设置延迟噢，我们是一只文明的爬虫~~~ 忘了说了，cookie会过期，需要及时更新cookie

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 218,386评论 6赞 506
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 93,142评论 3赞 394
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 164,704评论 0赞 353
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,702评论 1赞 294
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,716评论 6赞 392
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,573评论 1赞 305
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,314评论 3赞 418
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,230评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,680评论 1赞 314
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,873评论 3赞 336
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,991评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,706评论 5赞 346
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,329评论 3赞 330
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,910评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,038评论 1赞 270
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,158评论 3赞 370
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,941评论 2赞 355

Python爬虫如-何爬取ajax网页之爬取雪球网文章

推荐阅读更多精彩内容