使用python爬取糗百段子

博主CSDN昵称:守护者ly,欢迎大家前去指点
最近在自学Python爬虫,写了一个小demo,前来现学现卖!
感谢大神的博客!让我受益匪浅。python爬虫系列教程
开始之前啰嗦一句:不要因为我们的学习行为,影响到人家网站的正常运营
好了,开整!
首先博主用的是python3.6版本,据说python3的用户很少,我这也算个非主流了。。。不过博主正在切换python2,python2版本的demo会后续上传。
查看python版本,使用命令行直接敲入“python”命令即可

QQ截图20170322084416.png

首先,来一小段代码开开胃:

import requests


class py:
    def get_html(self, url):
      html = requests.get(url)
      print(html.text)

qiubai = py()
qiubai.get_html('http://www.qiushibaike.com/')

这里是使用了python的requests库进行http的get请求,requests库可以在命令行使用“pip install requests”安装。运行上述代码,会在控制台输出糗百首页的html源码,也是我们接下来工作的主要对象。

QQ截图20170322085254.png

在google浏览器上按下F12可以调用开发者工具,看到网页的源码,而我们所关注的信息是在id为“content-left”的<div>标签下,每一个class为“article block untagged mb15”的<div>标签都是一个段子的信息,包括作者,内容,图片,好笑数,评论数,点赞数,点踩数等等。而class为“pagination”的ul标签则包含了页面跳转的链接。

我们的解析信息工作,从一个正则表达式开始(糗百会不定期改版,这条正则到时候可能就不好使了,小伙伴需要发挥自己的聪明才智了哦):

        html = request.get(next_url, 3)
        pattern = re.compile('<div class="author clearfix">.*?href.*?<img src.*?title=.*?<h2>(.*?)</h2>.*?'
                             '<div class="content">.*?<span>(.*?)</span>.*?</div>.*?</a>(.*?)<div class="stats">'
                             '.*?class="stats-vote"><i class="number">(.*?)</i>.*?<i class="number">(.*?)</i>.*?'
                             'hidden">(.*?)</span>.*?hidden">-(.*?)</span>', re.S)
        # item[0] 用户昵称
        # item[1] 发布内容
        # item[2] 如果有内容,则为图片相关;否则是连续的\n符
        # item[3] 好笑
        # item[4] 评论数
        # item[5] 赞
        # item[6] 踩
        items = re.findall(pattern, html.text)
        # 匹配所有的<br/>字符
        replaceBR = re.compile(r'<br/>')
        # 匹配所有的\n串
        replaceN = re.compile(r'(\n)+')
        for item in items:
            # 将item[2]中的连续的\n字符串替换成一个None字符
            img = re.sub(replaceN, 'None', item[2])
            if img == 'None':
                print(item[0])
                # 将item[1]中的所有的<br/>字符替换成换行符
                print(re.sub(replaceBR, '\n', str(item[1])))
                print(u'好笑:', item[3], u' 评论:', item[4], u' 赞:', item[5], u'踩:', item[6])

所以匹配到的字符都会加入到一个我们定义的名为items的数组中,这个数组的长度最小为0(没有匹配),数组的每个元素又是一个长度为7的数组(因为我们在正则表达式中共有7个"(.*?)")。

乍一看这个正则表达式,有的人可能会有点懵逼,我们只看它的一小部分,“窥一斑而知全豹”,听贫道慢慢道来。

QQ截图20170322091340.png

每个段子包含的第一部分内容,就是作者的一些个人信息,<img>标签的链接是作者头像,h2标签中的内容是作者的昵称,再往下的<div>标签显示了作者的性别和年龄。我们的正则表达式匹配的就是以“author clearfix">”开头的,后续任意字符(也就是“.?”,匹配任意长度任意字符),然后匹配“href”字符等等,以此类推,直到“h2>(.?)</h2”这里我们注意一下,在上图中我们可以看到,它匹配的是“<h2>Boltzmann</h2>”这段,“(.*?)”匹配的也就是用户的昵称。

正则表达式是个好东西,不过博主是不怎么懂的,想学习的小伙伴可以自行查找资料,学有所成了记得来教教博主啊!感激不尽!

通过上述的代码我们可以获取当前页的所有段子,但是既然说是爬虫,我们的小虫子得主动出击啊,爬取一页之后应该去下一个页面继续工作。当然不是所有的网站都有类似“下一页”、“更多”这样的按钮的,那样的网站如何爬取遇到再说;幸运的是,糗百有啊,那我们还等什么,整!

上文说过,页面跳转的链接都在class为"pagination"的<ul>标签中,每个<li>标签都是一个地址链接,我们需要做的工作就是:

  1. 找到这个ul标签

  2. 找到ul标签下所有的li标签

  3. 从li标签中找到下一个页面的地址链接

这里给大家介绍一个简单粗暴的python库,叫 BeautifulSoup,使用这个库推荐安装lxml,安装命令当然是“pip install lxml”。

上代码:

获取class为pagination的ul标签,获取其中的页面跳转相关内容

        pagination = BeautifulSoup(html.text, 'lxml').find('ul', class_='pagination')
        #  获取pagination中所有的li标签,大多数最后一个标签都包含下一个页面的地址
        li = BeautifulSoup(str(pagination), 'lxml').find_all('li')
        next_pattern = re.compile('<a href="(.*?)" rel', re.S)
        # 检测最后一个li标签是否含有地址信息
        next = re.findall(next_pattern, str(li[-1]))
        # print(li)
        # 当下个页面链接不为空时,检测数据库中是否已经存在连接
        if next:
            print('the next page is:', next[-1])
            # 如果地址在库中存在,终止操作,否则拼接好url,继续执行后续操作
            if url_queue.find_by_id(next[-1]):
                break;
            # 地址信息入库
            info = {
                '_id': next[-1],
                'timestamp': datetime.now()
            }
            url_queue.push(info)
            next_url = base_url + next[-1]

        # 当下个页面链接为空时,退出循环
        else:
            print(r'I don\'t konw where to go : ', next)
            break

代码已上传csdn资源,大家可以免费下载,点击打开链接 欢迎大家拍砖~~~
最后再叮嘱一句:不要影响到人家网站的正常运营!

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,036评论 6 506
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,046评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,411评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,622评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,661评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,521评论 1 304
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,288评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,200评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,644评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,837评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,953评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,673评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,281评论 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,889评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,011评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,119评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,901评论 2 355

推荐阅读更多精彩内容

  • 本文分享的大体框架包含以下三部分 (1)首先介绍html网页,用来解析html网页的工具xpath(2)介绍pyt...
    不忘初心c阅读 2,555评论 0 14
  • # Python 资源大全中文版 我想很多程序员应该记得 GitHub 上有一个 Awesome - XXX 系列...
    aimaile阅读 26,482评论 6 427
  • 今天用pad读了几篇意林电子杂志,有种朋友圈软文被移植过来的感觉,什么情啊,爱啊,朋友背叛啊,微信好友屏蔽啊,年轻...
    洗粉小能手阅读 267评论 2 0
  • 中午骑摩托去接杨希瑞放学的路上,遇到路口绿灯还剩一秒钟的那一霎那,选择冲了过去,随即红灯亮起。 事后很后悔,倒不是...
    杨积群阅读 141评论 0 0