关于scrapy框架

Scrapy的安装介绍

Scrapy框架官方网址：http://doc.scrapy.org/en/latest

Scrapy中文维护站点：http://scrapy-chs.readthedocs.io/zh_CN/latest/index.html

Windows 安装方式

Python 3

升级pip版本：

pip3 install --upgrade pip

通过pip 安装 Scrapy 框架

pip3 install Scrapy

Ubuntu 安装方式

通过pip3 安装 Scrapy 框架

sudo pip3 install scrapy
如果安装不成功再试着添加这些依赖库：

安装非Python的依赖

sudo apt-get install python3-dev python-pip libxml2-dev libxslt1-dev zlib1g-dev libffi-dev libssl-dev

流程图

Image.png

1.Scrapy Engine(引擎): 负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯，信号、数据传递等

2.Scheduler(调度器): 它负责接受引擎发送过来的Request请求，并按照一定的方式进行整理排列，入队，当引擎需要时，交还给引擎。

3.Downloader（下载器）：负责下载Scrapy Engine(引擎)发送的所有Requests请求，并将其获取到的Responses交还给Scrapy Engine(引擎)，由引擎交给Spider来处理，

4.Spider（爬虫）：它负责处理所有Responses,从中分析提取数据，获取Item字段需要的数据，并将需要跟进的URL提交给引擎，再次进入Scheduler(调度器)，

5.Item Pipeline(管道)：它负责处理Spider中获取到的Item，并进行进行后期处理（详细分析、过滤、存储等）的地方.

6.Downloader Middlewares（下载中间件）：你可以当作是一个可以自定义扩展下载功能的组件。

7.Spider Middlewares（Spider中间件）：你可以理解为是一个可以自定扩展和操作引擎和Spider中间通信的功能组件（比如进入Spider的Responses;和从Spider出去的Requests）

爬虫又分为普通爬虫和通用爬虫

普通爬虫

1.新建项目
在开始爬取之前，必须创建一个新的Scrapy项目。进入自定义的项目目录中，运行下列命令：
scrapy startproject myspider
注意：我们在写项目时可以使用虚拟环境

2.新建爬虫文件
scrapy genspider jobbole jobbole.com

3.明确目标url
https://www.baidu.com/

4.进入item.py文件创建自己需要爬取的字段名称
标题
title = scrapy.Field()
创建时间
create_date = scrapy.Field()
文章地址
url = scrapy.Field()

5.制作爬虫（spider/baidu.py）
-*- coding: utf-8 -*-
import scrapy
class JobboleSpider(scrapy.Spider):
name = 'jobbole'
allowed_domains = ['jobbole.com']
start_urls = ['http://blog.jobbole.com/all-posts/']

def parse(self, response):
pass

6.分析数据，存储数据
在管道文件（pipeline.py）进行存储。

通用爬虫

通过下面的命令可以快速创建 CrawlSpider模板的代码：
scrapy genspider -t crawl 爬虫文件域名

它是Spider的派生类，Spider类的设计原则是只爬取start_url列表中的网页，而CrawlSpider类定义了一些规则Rule来提供跟进链接的方便的机制，从爬取的网页结果中获取链接并继续爬取的工作．

CrawlSpider继承于Spider类，除了继承过来的属性外（name、allow_domains），还提供了新的属性和方法:

rules

CrawlSpider使用rules属性来决定爬虫的爬取规则，并将匹配后的url请求提交给引擎,完成后续的爬取工作。
在rules中包含一个或多个Rule对象，每个Rule对爬取网站的动作定义了某种特定操作，比如提取当前相应内容里的特定链接，是否对提取的链接跟进爬取，对提交的请求设置回调函数等。

class scrapy.spiders.Rule(
link_extractor,
callback = None,
cb_kwargs = None,
follow = None,
process_links = None,
process_request = None
)

使用通用爬虫

第一步：根据要爬取的网页确定需要保存的字段
class ZhilianItem(scrapy.Item):
define the fields for your item here like:

name = scrapy.Field()
job_title = scrapy.Field()

第二步：编写爬虫类
LinkExtractor实例对象
jobListRult = LinkExtractor(allow=r'sou.zhaopin.com/jobs')

第三步：数据保存
Pipelines.py
import json
class ZhilianPipeline(object):

def init(self):```
self.file = open('zhilian.json','a+')

def process_item(self, item, spider):
content = json.dumps(dict(item),ensure_ascii=False) + '\n'
self.file.write(content)
def closespider(self):
self.file.close()

第四步：settings相关设置
1.ROBOTSTXT_OBEY = False 设置是否遵守robot协议
2.DOWNLOAD_DELAY = 3 设置下载延时
3.设置全局的Header
DEFAULT_REQUEST_HEADERS = {
'User-Agent':' Mozilla/5.0 (Macintosh; Intel Mac OS X 10.12; rv:59.0) Gecko/20100101 Firefox/59.0',
}
4.激活pipelines数据处理管道
ITEM_PIPELINES = {
'zhilian.pipelines.ZhilianPipeline': 300,
}

第五步：运行程序
scrapy crawl zhilianCrawl