Python爬取今日头条江歌案新闻

今天学习总结下爬取今日头条江歌案的新闻,今天头条用到了Ajax技术,所以用传统的索取网页元素的方法是获取不到内容的,之前我写了篇爬取拉钩上海Python职位信息,有兴趣的可以点开看看!

简书站外图片不能上传了么?上一篇的拉钩爬虫也是图片上传失败......大家有兴趣的可以去我博客,博客链接在最下面

第一步

用Chrome打开网页https://www.toutiao.com/search/?keyword=%E6%B1%9F%E6%AD%8C,打开开发者工具,红框内的信息是我们需要的,我们要抓取的数据就在data一栏中
[图片上传失败...(image-2b5cd5-1513863080036)]

我们再观察下网页信息,把网页不断的忘下翻,可以看到第一页是offset=0,往下翻过一个节点就是20,40,60这样递增上去
[图片上传失败...(image-bf43a2-1513863080036)]

好了,基本的分析完了,准备动手写代码

# -*- coding:utf-8 -*-
import requests
from urllib.parse import urlencode
from requests.exceptions import RequestException

def get_data():
    data = {
        'offset': 0,
        'format': 'json',
        'keyword': '江歌',
        'autoload': 'true',
        'count': '20',
        'cur_tab': 1,
        'from':'search_tab'
    }
    # urlencode(data)就是链接的解析
    url = 'https://www.toutiao.com/search_content/?' + urlencode(data)
    response = requests.get(url)
    try:
        if response.status_code == 200:
            return response.text
        return None
    except RequestException:
        print('data is error')
        return None

def main():
    html = get_data()
    print(html)


if __name__ == '__main__':
    main()

运行下代码,返回了这样的数据

[图片上传失败...(image-8a70f-1513595350490)]

第二步

解析数据

我们可以看下data一栏下的网页数据
[图片上传失败...(image-d10b02-1513863080036)]

def parse_data(html):
    data = json.loads(html) # JSON 字符串解码为 Python 对象
    if data and 'data' in data.keys():
        news_list =[]
        for item in data.get('data'):
            news = {
                'title': item.get('title'), # 使用get()方法避免了部分keys不存在时报错
                'url': item.get('url'),
            }
            news_list.append(news)
        return news_list

解析后再次运行代码,这就是我们要的数据了
[图片上传失败...(image-b26291-1513863080036)]

第三步

可以爬下单页数据了,现在来看下怎么爬取多页面

第一步网页分析的时候,offset的数据是抓取多页面内容的关键,我们先创建一个配置文件config.py,再创建多进程调用map方法

GROUP_START = 1
GROUP_END = 20

    groups = [x * 2 for x in range(GROUP_START, GROUP_END + 1)]
    pool = Pool(8)
    pool.map(main, groups)
    pool.close()
    pool.join()
    print('ALl is done!')

最后运行代码,开启了多进程后爬取的效率可以说是坐了火箭
[图片上传失败...(image-200d36-1513863080036)]

完整代码在GitHub
GitHub
简书
欢迎访问我的博客Treehl的博客
最后放一个爬虫集合,是我最近学习Python写的,喜欢的亲!给个Star呗!!!
SpiderList

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,039评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,223评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,916评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,009评论 1 291
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,030评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,011评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,934评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,754评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,202评论 1 309
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,433评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,590评论 1 346
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,321评论 5 342
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,917评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,568评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,738评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,583评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,482评论 2 352

推荐阅读更多精彩内容