我安装的scrapy是 2.4.1 版本的,现在把settings文件里面的参数全部拿出来并对应着找到他们代表的含义。
项目名称,默认的USER_AGENT由它来构成,也作为日志记录的日志名
# BOT_NAME = 'spidername'
爬虫应用路径
# SPIDER_MODULES = ['spidername.spiders']
# NEWSPIDER_MODULE = 'spidername.spiders'
客户端User-Agent请求头,这里是默认的值
# USER_AGENT = 'spidername (+http://www.yourdomain.com)'
是否遵循爬虫协议
# ROBOTSTXT_OBEY = False
下载器总共最大处理的并发请求数,默认值16
# CONCURRENT_REQUESTS = 32
如果没有开启智能限速,这个值就代表一个规定死的值,代表对同一网址延迟请求的秒数
# DOWNLOAD_DELAY = 3
每个域名能够被执行的最大并发请求数目,默认值8
# CONCURRENT_REQUESTS_PER_DOMAIN = 16
能够被单个IP处理的并发请求数,默认值0,代表无限制,如果不为零,将影响CONCURRENT_REQUESTS_PER_DOMAIN和DOWNLOAD_DELAY的限制情况
# CONCURRENT_REQUESTS_PER_IP = 16
是否支持cookie,cookiejar进行操作cookie,默认开启
# COOKIES_ENABLED = False
指定是否启用telnet控制台
# TELNETCONSOLE_ENABLED = False
Scrapy发送HTTP请求默认使用的请求头
# DEFAULT_REQUEST_HEADERS = {
# 'Accept': 'text/html',
# 'Accept-Language': 'en',
# }
包含项目中启用的spider中间件及其命令的字典
# SPIDER_MIDDLEWARES = {
# 'test_spider.middlewares.TestSpiderSpiderMiddleware': 543,
# }
Scrapy中默认启用的下载程序中间件的字典。低值更接近引擎,高值更接近下载器
# DOWNLOADER_MIDDLEWARES = {
# 'test_spider.middlewares.UserAgentDownloaderMiddleware': 543,
# }
包含项目中启用的扩展及其顺序的字典
# EXTENSIONS = {
# 'scrapy.extensions.telnet.TelnetConsole': None,
# }
包含要使用的项目管道及其顺序的字典。值是任意的,但是习惯上将它们定义在0-1000范围内。低值优先于高值
# ITEM_PIPELINES = {
# 'test_spider.pipelines.TestSpiderPipeline': 300,
# }
智能限速/自动节流
开启智能限速/自动节流,默认False不开启
# AUTOTHROTTLE_ENABLED = True
起始的延迟
# AUTOTHROTTLE_START_DELAY = 5
最大延迟
# AUTOTHROTTLE_MAX_DELAY = 10
每秒并发请求数的平均值,不能高于CONCURRENT_REQUESTS_PER_DOMAIN或CONCURRENT_REQUESTS_PER_IP,实际并发请求数目可能高于或低于该值,视爬虫情况而定
# AUTOTHROTTLE_TARGET_CONCURRENCY = 1.0
调试
# AUTOTHROTTLE_DEBUG = False
缓存
是否启用缓存策略
# HTTPCACHE_ENABLED = True
缓存超时时间
# HTTPCACHE_EXPIRATION_SECS = 0
缓存保存路径
# HTTPCACHE_DIR = 'httpcache'
缓存忽略的Http状态码
# HTTPCACHE_IGNORE_HTTP_CODES = []
缓存存储的插件
# HTTPCACHE_STORAGE = 'scrapy.extensions.httpcache.FilesystemCacheStorage'