[scrapy]scrapy按分类爬取豆瓣电影基础信息

Scrapy简介

Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。

Scrapy入门请看官方文档： [ scrapy官方文档 ](http://scrapy-
chs.readthedocs.io/zh_CN/1.0/intro/tutorial.html)

本爬虫简介

本爬虫实现按分类爬取豆瓣电影信息，一次爬取一个分类，且自动切换代理池，防止ip在访问过多过频繁后无效。

分类如图所示：

实现-scrapy中间件

scrapy基础框架参考上面的官方教程，搭建好基础框架后，本爬虫特殊之处在于为了防止爬虫被封，采用了轮换代理和agent的中间件。

agent轮换池：

简单的写一个user_agent_list来使得每次的agent不同，原理简单，代码如下：

class RotateUserAgentMiddleware(UserAgentMiddleware):  #轮换代理agent
    def __init__(self, user_agent=''):
        self.user_agent = user_agent

    def process_request(self, request, spider):
        ua = random.choice(self.user_agent_list)
        if ua:
            #print '-----------------------Using user-agent:', ua, '------------------------'
            request.headers.setdefault('User-Agent', ua)

            # the default user_agent_list composes chrome,IE,firefox,Mozilla,opera,netscape

    # for more user agent strings,you can find it in http://www.useragentstring.com/pages/useragentstring.php
    user_agent_list = [ \
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1" \
        "Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11", \
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6", \
        "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6", \
        "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/19.77.34.5 Safari/537.1", \
        "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5", \
        "Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5", \
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3", \
        "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3", \
        "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_0) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3", \
        "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3", \
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3", \
        "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3", \
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3", \
        "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3", \
        "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.0 Safari/536.3", \
        "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24", \
        "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24"
    ]

ip轮换池：

采用了一位大神cocoakekeyu写的中间件 Github地址
，并不认识他，但是为他点赞。代码在这里不贴了，可以去Github看。

** “一个用于scrapy爬虫的自动代理中间件。可自动抓取和切换代理，自定义抓取和切换规则。” **

**
**

实现-爬虫实现

item.py

class DoubanItem(scrapy.Item):
    movie_name = scrapy.Field()
    movie_director = scrapy.Field()
    movie_writer = scrapy.Field()
    movie_starring = scrapy.Field()
    movie_category = scrapy.Field()
    movie_country = scrapy.Field()
    #movie_language = scrapy.Field()
    movie_date = scrapy.Field()
    movie_time = scrapy.Field()
    movie_star = scrapy.Field()
    movie_5score = scrapy.Field()
    movie_4score = scrapy.Field()
    movie_3score = scrapy.Field()
    movie_2score = scrapy.Field()
    movie_1score = scrapy.Field()
    movie_describe = scrapy.Field()
    pass

看这item名都不用我解释...

doubanlist_spider.py

先贴上代码：

class doubanlistSpider(scrapy.Spider):
    name = "doubanlist"
    allowed_domains = ["movie.douban.com"]
    start_urls = [
        "https://movie.douban.com/tag/%E5%8A%A8%E7%94%BB"
    ]


    def parse(self, response):
        for href in response.xpath('//a[@class="nbg"]/@href'):
            url = href.extract()
            yield scrapy.Request(url, callback=self.parse_each_movie)
        next_page = response.xpath('//span[@class="next"]/a/@href').extract()
        if next_page:
            print '--------------Finding next page: [%s] --------------------------', next_page
            yield scrapy.Request(next_page[0], callback=self.parse)
        else:
            print '--------------There is no more page!--------------------------'


    def parse_each_movie(self, response):
        item = DoubanItem()
        item['movie_name'] = response.xpath('//span[@property="v:itemreviewed"]/text()').extract()
        item['movie_director'] = response.xpath('//a[@rel="v:directedBy"]/text()').extract()
        item['movie_writer'] = response.xpath('//span[@class="attrs"][2]/a/text()').extract()
        item['movie_starring'] = response.xpath('//a[@rel="v:starring"]/text()').extract()
        item['movie_category'] = response.xpath('//span[@property="v:genre"]/text()').extract()
        #item['movie_language'] = response.xpath('//*[@id="info"]').re(r'</span> (.*)<br>\n')[2]
        item['movie_date'] = response.xpath('//span[@property="v:initialReleaseDate"]/text()').extract()
        item['movie_time'] = response.xpath('//span[@property="v:runtime"]/text()').extract()
        item['movie_star'] = response.xpath('//strong[@property="v:average"]/text()').extract()
        item['movie_5score'] = response.xpath('//span[@class="rating_per"][1]/text()').extract()
        item['movie_4score'] = response.xpath('//span[@class="rating_per"][2]/text()').extract()
        item['movie_3score'] = response.xpath('//span[@class="rating_per"][3]/text()').extract()
        item['movie_2score'] = response.xpath('//span[@class="rating_per"][4]/text()').extract()
        item['movie_1score'] = response.xpath('//span[@class="rating_per"][5]/text()').extract()
        item['movie_describe'] = response.xpath('//*[@id="link-report"]/span/text()').re(r'\S+')

        check_item = response.xpath('//*[@id="info"]').re(r'</span> (.*)<br>\n')[1]
        result = self.check_contain_chinese(check_item)
        if result:
            item['movie_country'] = response.xpath('//*[@id="info"]').re(r'</span> (.*)<br>\n')[1]
        else:
            item['movie_country'] = response.xpath('//*[@id="info"]').re(r'</span> (.*)<br>\n')[2]

        yield item

    def check_contain_chinese(self, check_str):
        for ch in check_str.decode('utf-8'):
            if u'\u4e00' <= ch <= u'\u9fff':
                return True
        return False

def parse(self, response)：从https://movie.douban.com/tag/%E5%8A%A8%E7%94%BB（某一特
定分类）开始，爬取20条本页的电影，之后判定“下一页”按钮是否存在，如果存在则继续爬取下一页。

def parse_each_movie(self, response):对于每个电影详细页，爬取所需要的信息，全部使用xpath

中间一段是在爬取电影国家信息时，由于有不同情况的网页（可能是新老页面交替），需要不同处理，不然会爬到不正确的信息，xpath定位不准。

def check_contain_chinese：为了确定爬取的中文内容为中文字符串，需要进行判断。

总结

具体项目请查看：https://github.com/qqxx6661/scrapy_yzd

最后编辑于：2017.12.08 19:59:48

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 218,546评论 6赞 507
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 93,224评论 3赞 395
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 164,911评论 0赞 354
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,737评论 1赞 294
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,753评论 6赞 392
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,598评论 1赞 305
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,338评论 3赞 418
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,249评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,696评论 1赞 314
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,888评论 3赞 336
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 40,013评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,731评论 5赞 346
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,348评论 3赞 330
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,929评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,048评论 1赞 270
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,203评论 3赞 370
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,960评论 2赞 355