使用scrapy来爬图文

这样的关键字能搜到很多很多文章，可是，在我的实践过程中，没有一篇文章能够待我穿过山和大海，也走过人山人海，相反，都是带着我掉进了坑，陷进了沼泽，挂在了树上...

环境

python 叫做 Python3，版本 v3.6.1
os 是 Mac os
scrapy 版本 v1.3.3

我有一个小目标，先扒下来几百张图再说

感谢douban，让我一次一次又一次地爬...
目标网页: https://www.douban.com/doulist/1295618/
它看起来是这样的

中国内地电影票房总排行

而我们的目标，是将这些 下载下来电影海报，顺便记录一下排行榜到csv文件

使用Scrapy创建一个项目

如果没有安装Scrapy，可以参考我的另一篇文章安装scrapy。我们这里使用命令生成一个脚手架

scrapy startproject douban

生成后的项目结构如下（根目录）：

├── scrapy.cfg
└── scrapyspider                         # 项目目录
    ├── items.py                         # 模型文件，定义要抓取的对象，后期修改
    ├── middlewares.py
    ├── pipelines.py                     # 以管道方式处理模型，后期修改
    ├── settings.py                      # 项目配置文件，后期修改
    └── spiders                          # 爬虫文件夹
        └── douban_spider.py             # 后期新增的爬虫文件

需要注意：

由于使用我们的管道继承了scrapy的图片管道，所以项目依赖Pillow的库，使用

python3 -m pip install pillow

来安装PIL的依赖

scrapy crawl xxx

其中xxx是爬虫的名字（注：不是文件名哦，是爬虫的name属性）

文件如下

setting.py

import os

BOT_NAME = 'douban'

SPIDER_MODULES = ['douban.spiders']
NEWSPIDER_MODULE = 'douban.spiders'

DOWNLOADER_DEBUG = True              #这5行不是必须的，只是为了调试方便
CONCURRENT_REQUESTS = 200         
AUTOTHROTTLE_DEBUG = True
AUTOTHROTTLE_ENABLED= True
DEPTH_STATS_VERBOSE = True           # 5行到这里

CUR_DIR = os.path.dirname(os.path.realpath(__file__))
IMAGES_STORE = os.path.join(CUR_DIR, '..', 'images')


ITEM_PIPELINES = {
    'douban.pipelines.DoubanPicPipelines': 1
}

COOKIE_ENABLE = False    # 建议有，不要记着我的脸，不要cookie
DOWNLOAD_DELAY = 0.5    # 建议有，步子不要太大，否则容易扯着蛋

ROBOTSTXT_OBEY = False     # 必须有，否则你的爬虫会按照robot.txt规则来决定能否爬当前内容

ITEM_PIPELINES 属性描述了管道流，key是管道类的类名，value是一个数字，用来描述任务优先级，1就是最早执行，数字越大，执行顺序就越晚

pipelines.py

from scrapy.pipelines.images import ImagesPipeline
from scrapy.exceptions import DropItem
from scrapy import Request

class DoubanPicPipelines(ImagesPipeline):

    def get_media_requests(self,item,info):
        for image_url in item['image_urls']:
            yield Request(image_url)
    def item_completed(self,results,item,info):
        image_paths=[x['path'] for ok,x in results if ok]    # 这里的path是item自动加上的
        if not image_paths:
            raise DropItem('图片未下载好 %s'%image_paths)

items.py

import scrapy

class DoubanItem(scrapy.Item):
    ranking = scrapy.Field()
    # movie's name
    movie_name = scrapy.Field()
    # score
    score = scrapy.Field()
    # comment count
    score_num = scrapy.Field()
    # image_urls
    image_urls = scrapy.Field()
    # image name
    images = scrapy.Field()

spiders/douban_spider.py

from scrapy.spiders import Spider
from scrapy.http import Request
from douban.items import DoubanItem
import re


class DoubanMovieSpider(Spider):
    name = 'movie'    # 这个名字决定了使用scrapy crawl movie来启动爬虫
    headers = {       # 没有UA，网站不待见你
        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.11; rv:54.0) Gecko/20100101 Firefox/54.0'
    }

    def start_requests(self):
        url = 'https://www.douban.com/doulist/1295618/'
        yield Request(url, headers=self.headers)

    def parse(self, response):
        item = DoubanItem()
        movies = response.xpath('//div[@class="doulist-item"]/div')
        for movie in movies:
            item['ranking'] = movie.xpath(
                './/span[@class="pos"]/text()').extract()[0]
            item['movie_name'] = movie.xpath(
                './/div[@class="title"]/a/text()').extract()[0]

            score = movie.xpath('.//span[@class="rating_nums"]/text()').extract()
            if score:
                score = score[0]
            else:
                score = 'N/A'
            item['score'] = score

            score_num = movie.xpath('.//div[@class="rating"]/span[3]').re(r'(\d+)')
            if score_num:
                score_num = score_num[0]
            else:
                score_num = 'N/A'
            item['score_num'] = score_num

            image_urls = movie.xpath('.//div[@class="post"]/a/img/@src').extract()
            item['image_urls'] = image_urls

            item['images'] = movie.xpath(
                './/div[@class="post"]/a/img/@src').re(r'[^/]*.[jpg|png|gif|webp]$')

            yield item

        # 处理分页
        next_url = response.xpath('//span[@class="next"]/a/@href').extract()
        if next_url:
            yield Request(next_url[0], headers = self.headers)

运行爬虫，

scrapy crawl movie -o movies.cvs

稍等片刻，就能够看到生成出来的cvs文件了，使用wps打开，能够看到漂亮的中文（office貌似是乱码）

cvs文件，可以很方便排序

下载下来的海报

最后编辑于：2017.12.08 23:51:48

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 227,572评论 6赞 531
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 98,071评论 3赞 414
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 175,409评论 0赞 373
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 62,569评论 1赞 307
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 71,360评论 6赞 404
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 54,895评论 1赞 321
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 42,979评论 3赞 440
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 42,123评论 0赞 286
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 48,643评论 1赞 333
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 40,559评论 3赞 354
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 42,742评论 1赞 369
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 38,250评论 5赞 356
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 43,981评论 3赞 346
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 34,363评论 0赞 25
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 35,622评论 1赞 280
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 51,354评论 3赞 390
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 47,707评论 2赞 370