使用python爬取糗百段子

博主CSDN昵称：守护者ly，欢迎大家前去指点
最近在自学Python爬虫，写了一个小demo，前来现学现卖!
感谢大神的博客！让我受益匪浅。python爬虫系列教程
开始之前啰嗦一句：不要因为我们的学习行为，影响到人家网站的正常运营
好了，开整！
首先博主用的是python3.6版本，据说python3的用户很少，我这也算个非主流了。。。不过博主正在切换python2，python2版本的demo会后续上传。
查看python版本，使用命令行直接敲入“python”命令即可

QQ截图20170322084416.png

首先，来一小段代码开开胃：

import requests


class py:
    def get_html(self, url):
      html = requests.get(url)
      print(html.text)

qiubai = py()
qiubai.get_html('http://www.qiushibaike.com/')

这里是使用了python的requests库进行http的get请求，requests库可以在命令行使用“pip install requests”安装。运行上述代码，会在控制台输出糗百首页的html源码，也是我们接下来工作的主要对象。

QQ截图20170322085254.png

在google浏览器上按下F12可以调用开发者工具，看到网页的源码，而我们所关注的信息是在id为“content-left”的<div>标签下，每一个class为“article block untagged mb15”的<div>标签都是一个段子的信息，包括作者，内容，图片，好笑数，评论数，点赞数，点踩数等等。而class为“pagination”的ul标签则包含了页面跳转的链接。

我们的解析信息工作，从一个正则表达式开始（糗百会不定期改版，这条正则到时候可能就不好使了，小伙伴需要发挥自己的聪明才智了哦）：

        html = request.get(next_url, 3)
        pattern = re.compile('<div class="author clearfix">.*?href.*?<img src.*?title=.*?<h2>(.*?)</h2>.*?'
                             '<div class="content">.*?<span>(.*?)</span>.*?</div>.*?</a>(.*?)<div class="stats">'
                             '.*?class="stats-vote"><i class="number">(.*?)</i>.*?<i class="number">(.*?)</i>.*?'
                             'hidden">(.*?)</span>.*?hidden">-(.*?)</span>', re.S)
        # item[0] 用户昵称
        # item[1] 发布内容
        # item[2] 如果有内容，则为图片相关；否则是连续的\n符
        # item[3] 好笑
        # item[4] 评论数
        # item[5] 赞
        # item[6] 踩
        items = re.findall(pattern, html.text)
        # 匹配所有的<br/>字符
        replaceBR = re.compile(r'<br/>')
        # 匹配所有的\n串
        replaceN = re.compile(r'(\n)+')
        for item in items:
            # 将item[2]中的连续的\n字符串替换成一个None字符
            img = re.sub(replaceN, 'None', item[2])
            if img == 'None':
                print(item[0])
                # 将item[1]中的所有的<br/>字符替换成换行符
                print(re.sub(replaceBR, '\n', str(item[1])))
                print(u'好笑：', item[3], u' 评论：', item[4], u' 赞：', item[5], u'踩：', item[6])

所以匹配到的字符都会加入到一个我们定义的名为items的数组中，这个数组的长度最小为0（没有匹配），数组的每个元素又是一个长度为7的数组（因为我们在正则表达式中共有7个"(.*?)"）。

乍一看这个正则表达式，有的人可能会有点懵逼，我们只看它的一小部分，“窥一斑而知全豹”，听贫道慢慢道来。

QQ截图20170322091340.png

每个段子包含的第一部分内容，就是作者的一些个人信息，<img>标签的链接是作者头像，h2标签中的内容是作者的昵称，再往下的<div>标签显示了作者的性别和年龄。我们的正则表达式匹配的就是以“author clearfix">”开头的，后续任意字符（也就是“.?”，匹配任意长度任意字符），然后匹配“href”字符等等，以此类推，直到“h2>(.?)</h2”这里我们注意一下，在上图中我们可以看到，它匹配的是“<h2>Boltzmann</h2>”这段，“(.*?)”匹配的也就是用户的昵称。

正则表达式是个好东西，不过博主是不怎么懂的，想学习的小伙伴可以自行查找资料，学有所成了记得来教教博主啊！感激不尽！

通过上述的代码我们可以获取当前页的所有段子，但是既然说是爬虫，我们的小虫子得主动出击啊，爬取一页之后应该去下一个页面继续工作。当然不是所有的网站都有类似“下一页”、“更多”这样的按钮的，那样的网站如何爬取遇到再说；幸运的是，糗百有啊，那我们还等什么，整！

上文说过，页面跳转的链接都在class为"pagination"的<ul>标签中，每个<li>标签都是一个地址链接，我们需要做的工作就是：

找到这个ul标签
找到ul标签下所有的li标签
从li标签中找到下一个页面的地址链接

这里给大家介绍一个简单粗暴的python库，叫 BeautifulSoup，使用这个库推荐安装lxml，安装命令当然是“pip install lxml”。

上代码：

获取class为pagination的ul标签,获取其中的页面跳转相关内容

        pagination = BeautifulSoup(html.text, 'lxml').find('ul', class_='pagination')
        #  获取pagination中所有的li标签，大多数最后一个标签都包含下一个页面的地址
        li = BeautifulSoup(str(pagination), 'lxml').find_all('li')
        next_pattern = re.compile('<a href="(.*?)" rel', re.S)
        # 检测最后一个li标签是否含有地址信息
        next = re.findall(next_pattern, str(li[-1]))
        # print(li)
        # 当下个页面链接不为空时，检测数据库中是否已经存在连接
        if next:
            print('the next page is:', next[-1])
            # 如果地址在库中存在，终止操作，否则拼接好url，继续执行后续操作
            if url_queue.find_by_id(next[-1]):
                break;
            # 地址信息入库
            info = {
                '_id': next[-1],
                'timestamp': datetime.now()
            }
            url_queue.push(info)
            next_url = base_url + next[-1]

        # 当下个页面链接为空时，退出循环
        else:
            print(r'I don\'t konw where to go : ', next)
            break

代码已上传csdn资源，大家可以免费下载，点击打开链接欢迎大家拍砖~~~
最后再叮嘱一句：不要影响到人家网站的正常运营！

最后编辑于：2017.12.06 04:54:21

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 218,036评论 6赞 506
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 93,046评论 3赞 395
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 164,411评论 0赞 354
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,622评论 1赞 293
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,661评论 6赞 392
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,521评论 1赞 304
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,288评论 3赞 418
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,200评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,644评论 1赞 314
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,837评论 3赞 336
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,953评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,673评论 5赞 346
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,281评论 3赞 329
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,889评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,011评论 1赞 269
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,119评论 3赞 370
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,901评论 2赞 355

使用python爬取糗百段子

获取class为pagination的ul标签,获取其中的页面跳转相关内容

推荐阅读更多精彩内容