scrapy用proxy的零零总总

scrapy框架及中间件中说到了中间件相关的数据流程,刚好在用proxy爬数据的时候会用到中间件的零零总总,这回可以一起说说了。
我觉得写中间件要先找到内置的相关中间件,根据你的需求改写其中的request/response/exceptions。
因为scrapy里内置的downloadermiddlewares应该已经足够满足大部分的需求了,文档上说了一个顺序,也是把所有的downloadermiddlewares罗列出来。以及每个中间件要启用哪些设置,在文档中间件有写明。

{
'scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware': 100,#Robots协议
'scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware': 300,#http认证
'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware': 350,
'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware': 400,
'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': 500,
'scrapy.downloadermiddlewares.retry.RetryMiddleware': 550,
'scrapy.downloadermiddlewares.ajaxcrawl.AjaxCrawlMiddleware': 560,
'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware': 580,
'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 590,#压缩方式——Accept-Encoding: gzip, deflate
'scrapy.downloadermiddlewares.redirect.RedirectMiddleware': 600,#重定向301,302
'scrapy.downloadermiddlewares.cookies.CookiesMiddleware': 700,
'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware': 750,#代理
'scrapy.downloadermiddlewares.stats.DownloaderStats': 850,
'scrapy.downloadermiddlewares.httpcache.HttpCacheMiddleware': 900,#底层缓存支持
}

另spidermiddlewares
{
'scrapy.spidermiddlewares.httperror.HttpErrorMiddleware': 50,#直接跳过非2**的request,
'scrapy.spidermiddlewares.offsite.OffsiteMiddleware': 500,#在domain之外的网址不被过滤
'scrapy.spidermiddlewares.referer.RefererMiddleware': 700,#根据request和response生成request headers中的referer
'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware': 800,#控制爬取得url长度
'scrapy.spidermiddlewares.depth.DepthMiddleware': 900,#控制爬取得深度
}

这回想要用proxy爬取百度首页,想的是基本流程是
1.setting里导入ip-list,同时DOWNLOAD_TIMEOUT=3,默认180,3分钟太长了
2.修改HttpProxyMiddleware,让其从setting里都每次都取第一个proxy发起request
2.修改RetryMiddleware,如果出现timeout等错误(重写exception)或者ip被封出现503(重写response)之类,就把这个ip删掉,把删除后的iplist重写进setting,如果iplist为0,就结束spider。

middleware:

from scrapy import signals
from scrapy.utils.project import get_project_settings
from scrapy.downloadermiddlewares.retry import RetryMiddleware
from scrapy.downloadermiddlewares.httpproxy import HttpProxyMiddleware
import time
import random
from scrapy.utils.response import response_status_message
from scrapy.log import logger

class MyProxyMiddleware(HttpProxyMiddleware):
    def process_request(self, request, spider):
        settings = get_project_settings()
        proxies = settings.get('IPOOL')

        logger.debug('now ip is '+proxies[0])
        request.meta['proxy'] = proxies[0]

class MyRetryMiddleware(RetryMiddleware):
    def delete_proxy(self,spider):
        settings = get_project_settings()
        proxies = settings.get('IPOOL')
        if proxies:
            proxies.pop(0)
            settings.set('IPOOL',proxies)
        else:
            spider.crawler.engine.close_spider(spider, 'response msg error , job done!')

    def process_exception(self, request, exception, spider):
        if isinstance(exception, self.EXCEPTIONS_TO_RETRY) \
                and not request.meta.get('dont_retry', False):
            self.delete_proxy(spider)
            time.sleep(random.randint(3, 5))
            return self._retry(request, exception, spider)

    def process_response(self, request, response, spider):
        if request.meta.get('dont_retry', False):
            return response
        if response.status == 200:
            self.delete_proxy(spider)
            return response
        if response.status in self.retry_http_codes:
            reason = response_status_message(response.status)
            self.delete_proxy(spider)
            time.sleep(random.randint(3, 5))
            return self._retry(request, reason, spider) or response
        return response

settings:

import pandas as pd
df = pd.read_csv('F:\\pycharm project\\pachong\\vpn.csv')
IPOOL = df['address'][df['status'] == 'yes'].tolist()
DOWNLOADER_MIDDLEWARES = {
   # 'mytset.middlewares.MytsetDownloaderMiddleware': 543,
    'mytset.middlewares.MyRetryMiddleware':550,
    'mytset.middlewares.MyProxyMiddleware': 750,
}
DOWNLOAD_TIMEOUT=3

spider:

import scrapy
from pyquery import PyQuery as pq

class BaiduSpider(scrapy.Spider):
    name = 'baidu'
    allowed_domains = ['www.baidu.com']


    def start_requests(self):
        for _ in range(30):
            yield scrapy.Request(url='http://www.baidu.com/',callback=self.parse,dont_filter=True)
    def parse(self, response):
        res = pq(response.body)
        proxy = response.meta['proxy']
        print(proxy)
        print(res('title').text())
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,839评论 6 482
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,543评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 153,116评论 0 344
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,371评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,384评论 5 374
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,111评论 1 285
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,416评论 3 400
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,053评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,558评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,007评论 2 325
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,117评论 1 334
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,756评论 4 324
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,324评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,315评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,539评论 1 262
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,578评论 2 355
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,877评论 2 345

推荐阅读更多精彩内容

  • scrapy学习笔记(有示例版) 我的博客 scrapy学习笔记1.使用scrapy1.1创建工程1.2创建爬虫模...
    陈思煜阅读 12,655评论 4 46
  • 背景 部门(东方IC、图虫)业务驱动,需要搜集大量图片资源,做数据分析,以及正版图片维权。前期主要用node做爬虫...
    字节跳动技术团队阅读 7,649评论 1 67
  • 说起写爬虫,大多数第一时间想到的就是python了。python语法简洁明了,加上及其丰富好用的库,用它来写爬虫有...
    疯狂的哈丘阅读 8,158评论 1 15
  • scrapy是python最有名的爬虫框架之一,可以很方便的进行web抓取,并且提供了很强的定制型,这里记录简单学...
    bomo阅读 2,088评论 1 11
  • 《面纱》,关于爱与责任,关于背叛与救赎。 也许大多数人的婚姻是这样的,波澜不惊,好像爱情从来不曾存在过。当婚姻难以...
    北风拾柒阅读 290评论 0 1