Python爬虫初学（二）—— 爬百度贴吧小说和图片

昨天初步接触了爬虫，实现了爬取网络段子并逐条阅读等功能，详见Python爬虫初学（一）。今天准备对百度贴吧下手了，嘿嘿。依然是跟着这个博客学习的，这次仿照该博主用类的方式写。

其实我从来不玩贴吧，不过据我所知贴吧有一些网友，他们开帖子连载原创小说；还有些网友提供“福利”，造福广大网民。嗯，所以今天的目标是这样的：

把分散的连载小说下载到本地

批量下载贴吧图片

一. 下载小说

1. 定义一个类

这次用类来写。实现这个也不难，经过昨天的学习已经有一定经验了。导入库什么的就不说了。先看贴吧的url构成，如http://tieba.baidu.com/p/4723863270?see_lz=1&pn=2。其中http://tieba.baidu.com/p/4723863270为该帖的基础地址，?see_lz=1是只看楼主标志位，为1是表示“只看楼主”，pn=2代表当前帖子的页码。现在来定义一个爬取百度贴吧的SpiderBaidu，初始化，然后定义一个open_url()来返回网页内容。

class SpiderBaidu:
    # 初始化帖子原地址，默认只看楼主
    def __init__(self, url, see_lz_flag=1):
        self.url = url
        # 可设置看所有楼
        self.see_lz = '?see_lz=' + str(see_lz_flag)
        self.res = []
        
    # 打开具体网址并返回网页内容
    def open_url(self, num):
        # 该帖具体网址，num指定页码
        wanted_page = self.url + self.see_lz + '&pn=' + str(num)
        req = request.Request(wanted_page)
        req.add_header('User-Agent', 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 '
                                     '(KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36')
        response = request.urlopen(req)
        html = response.read().decode('utf-8')
        return html

2. 获取标题和总页数

我们想要知道帖子标题以及总页数，提取出来就是了！

可以发现标题被<h1 class="core_title_txt(...)</h1>包含起来了，这里要注意的是，有些帖子不是<h1>,可能是<h3>或者其他，一会儿匹配的时候考虑进去。

    # 提取标题
    def get_title(self):
        # 第1页就包含标题，所以num用1即可
        html = self.open_url(1)
        # 提取标题的规则，<h\d>即无论h1还是h3都会匹配成功
        title_pattern = re.compile(r'<h\d class="core_title_txt.*?>(.*?)</h\d>')
        title = re.findall(title_pattern, html)
        # 返回的是列表且只有一个元素，故用title[0]
        return title[0]

接下来是总页数，仔细观察总页数其实在最上面和最下面都是有一个的，所以一会儿匹配后返回的列表会有两个元素，这两个元素是一模一样的！

如上图，数字7被<span class="red">(需要提取的数字)</span>包含。代码如下。

    # 获取总页数
    def get_page_num(self): 
        # 第1页也有总页数
        html = self.open_url(1)
        num_pattern = re.compile(r'<span class="red">(\d+)</span>')
        page_num = re.findall(num_pattern, html)
        # 贴吧的最上和最下面都有总页码，随便返回一个即可
        return page_num[0]

我们来看一下提取出来的标题和页码。

3. 获取正文

正文前面有空格，依然要用\s+匹配。正文被<div id="post_content...class=d_post_content j_d_post_content...空格空格（正文）</div>包含。以下函数提取出正文。

    # 获取正文
    def get_content(self, num):
        # 获取网页全部内容
        html = self.open_url(num)
        # 提取每楼发言
        content_pattern = re.compile(r'<div id="post_content.*?class="d_post_content j_d_post_content'
                                     r'.*?>\s+(.*?)</div>')
        content = re.findall(content_pattern, html)
        return content

即使提取出帖子正文了，也别高兴的太早。贴吧发帖不可能人人都发的纯文本，可以预想到里面会有图片（包含表情），超链接，还有设置的签名等。这些还没有被过滤掉。（不好意思忘了截图，反正打印出来的内容会含有很多又长又难看的链接）

我们再制定规则过滤掉。

    # 这里参数con为get_content()函数返回的包含正文的列表
    def get_words_only(self, con):
        for i in con:
            # 删除图片
            each = re.sub(r'<img class=".*?>', '', i)
            # 删除签名
            each = re.sub(r'<div class="post_bubble_top".*?>', '', each)
            # 换行
            each = re.sub(r'<br>', '\n', each)
            # 删除超链接
            each = re.sub(r'<a href=.*?</a>', '', each)
            # 添加到初始化的列表中
            self.res.append(each)
        return self.res

4. 下载小说到本地

默认模式为只看楼主，其他人插楼小说还咋读是不。

    # 下载到本地
    def save_text(self):
        # 返回的帖子标题作为文件名
        file_title = self.get_title()
        # 最大页码
        page_num = int(self.get_page_num())
        with open(file_title + '.txt', 'w', encoding='utf-8') as f:
            # 每一页内容都写入文件
            for number in range(1, page_num + 1):
                con = self.get_content(number)
                # 只留下纯文字，过滤图片、超链接等
                result = self.get_words_only(con)
                f.writelines(result)

最后创建一个实例就好了，试试下载吧。

if __name__ == '__main__':
    spider = SpiderBaidu('http://tieba.baidu.com/p/4698209454')
    title = spider.get_title()
    total_num = spider.get_page_num()
    print('{}(共{}页)'.format(title, total_num))
    spider.save_text()

下载下来后是这个效果，还行，能读。

二、批量下载图片

刚才有过滤图片是不？我们反过来利用它，分分钟就搞定！

提取图片链接即可。它被<img class="BDE_Image" src="(.*?jpg)"这样的形式包含。

# 只保存图片
    def save_images(self, folder):
        page_num = int(self.get_page_num())
        # 文件名序号
        seq = 1
        # 创建文件夹
        os.mkdir(folder)
        # 工程目录切换到当成文件夹
        os.chdir(folder)
        for number in range(1, page_num + 1):
            # 网页全部内容
            html = self.open_url(number)
            img_pattern = re.compile(r'<img class="BDE_Image" src="(.*?jpg)"')
            images = re.findall(img_pattern, html)
            # 每爬一页，休息10秒
            time.sleep(10)
            for each in images:
                # 文件名
                filename = str(seq) + '.jpg'
                # 下载到文件夹
                request.urlretrieve(each, filename)
                # 数字递增方式给文件命名
                seq += 1
                # 每两秒下载一次
                time.sleep(2)

可以适当加入time.sleep(),防止访问频率过快导致爬虫封IP。简单的可以这么做，当然可以用代理，多线程，不过我还没接触到，以后再深入。

居然几百张！大丰收呀，看到图片自动地就被飞速下载到本地了，还用一张张右键吗？No！挂着程序让它跑，看部电影去吧！

整理一下，全部代码如下

from urllib import request, parse
import re
import os
import time


class SpiderBaidu:
    # 初始化帖子原地址，默认只看楼主为否
    def __init__(self, url, see_lz_flag=1):
        self.url = url
        self.see_lz = '?see_lz=' + str(see_lz_flag)
        self.res = []

    def open_url(self, num):
        # 该帖具体网址
        wanted_page = self.url + self.see_lz + '&pn=' + str(num)
        req = request.Request(wanted_page)
        req.add_header('User-Agent', 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 '
                                     '(KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36')
        response = request.urlopen(req)
        html = response.read().decode('utf-8')
        return html

    # 提取标题
    def get_title(self):
        html = self.open_url(1)
        title_pattern = re.compile(r'<h\d class="core_title_txt.*?>(.*?)</h\d>')
        title = re.findall(title_pattern, html)
        return title[0]

    # 获取总页数
    def get_page_num(self):
        html = self.open_url(1)
        num_pattern = re.compile(r'<span class="red">(\d+)</span>')
        page_num = re.findall(num_pattern, html)
        # 贴吧的最上和最下面都有总页码，随便返回一个即可
        return page_num[0]

    # 获取正文
    def get_content(self, num):
        html = self.open_url(num)
        content_pattern = re.compile(r'<div id="post_content.*?class="d_post_content j_d_post_content'
                                     r'.*?>\s+(.*?)</div>')
        content = re.findall(content_pattern, html)
        return content

    # 去除文字外所有内容
    def get_words_only(self, con):
        for i in con:
            # 删除图片
            each = re.sub(r'<img class=".*?>', '', i)
            # 删除签名
            each = re.sub(r'<div class="post_bubble_top".*?>', '', each)
            # 换行
            each = re.sub(r'<br>', '\n', each)
            # 删除超链接
            each = re.sub(r'<a href=.*?</a>', '', each)
            self.res.append(each)
        return self.res

    # 下载到本地
    def save_text(self):
        # 帖子标题作为文件名
        file_title = self.get_title()
        # 最大页码
        page_num = int(self.get_page_num())
        with open(file_title + '.txt', 'w', encoding='utf-8') as f:
            for number in range(1, page_num + 1):
                con = self.get_content(number)
                result = self.get_words_only(con)
                f.writelines(result)

    # 只保存图片
    def save_images(self, folder):
        page_num = int(self.get_page_num())
        # 文件名序号
        seq = 1
        os.mkdir(folder)
        os.chdir(folder)
        for number in range(1, page_num + 1):
            html = self.open_url(number)
            img_pattern = re.compile(r'<img class="BDE_Image" src="(.*?jpg)"')
            images = re.findall(img_pattern, html)
            time.sleep(10)
            for each in images:
                filename = str(seq) + '.jpg'
                request.urlretrieve(each, filename)
                seq += 1
                time.sleep(2)

if __name__ == '__main__':
    spider = SpiderBaidu('http://tieba.baidu.com/p/4698209454')
    title = spider.get_title()
    total_num = spider.get_page_num()
    print('{}(共{}页)'.format(title, total_num))
    spider.save_text()
    spider.save_images('图')

by @sunhaiyu

2016.8.16

最后编辑于：2017.12.04 01:48:45

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 198,417评论 5赞 465
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 83,317评论 2赞 375
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 145,319评论 0赞 327
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 53,039评论 1赞 268
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 61,951评论 5赞 359
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 47,803评论 1赞 275
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,003评论 3赞 389
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 35,621评论 0赞 254
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 39,909评论 1赞 294
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 34,942评论 2赞 315
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 36,752评论 1赞 328
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 32,529评论 3赞 316
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,021评论 3赞 301
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,149评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 30,454评论 1赞 255
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,064评论 2赞 343
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 41,260评论 2赞 339