Scrapy的安装介绍
Scrapy框架官方网址:http://doc.scrapy.org/en/latest
Scrapy中文维护站点:http://scrapy-chs.readthedocs.io/zh_CN/latest/index.html
Windows 安装方式
Python 3
升级pip版本:
pip3 install --upgrade pip
通过pip 安装 Scrapy 框架
pip3 install Scrapy
Ubuntu 安装方式
通过pip3 安装 Scrapy 框架
sudo pip3 install scrapy
如果安装不成功再试着添加这些依赖库:
安装非Python的依赖
sudo apt-get install python3-dev python-pip libxml2-dev libxslt1-dev zlib1g-dev libffi-dev libssl-dev
流程图
1.Scrapy Engine(引擎): 负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯,信号、数据传递等
2.Scheduler(调度器): 它负责接受引擎发送过来的Request请求,并按照一定的方式进行整理排列,入队,当引擎需要时,交还给引擎。
3.Downloader(下载器):负责下载Scrapy Engine(引擎)发送的所有Requests请求,并将其获取到的Responses交还给Scrapy Engine(引擎),由引擎交给Spider来处理,
4.Spider(爬虫):它负责处理所有Responses,从中分析提取数据,获取Item字段需要的数据,并将需要跟进的URL提交给引擎,再次进入Scheduler(调度器),
5.Item Pipeline(管道):它负责处理Spider中获取到的Item,并进行进行后期处理(详细分析、过滤、存储等)的地方.
6.Downloader Middlewares(下载中间件):你可以当作是一个可以自定义扩展下载功能的组件。
7.Spider Middlewares(Spider中间件):你可以理解为是一个可以自定扩展和操作引擎和Spider中间通信的功能组件(比如进入Spider的Responses;和从Spider出去的Requests)
爬虫又分为普通爬虫和通用爬虫
普通爬虫
1.新建项目
在开始爬取之前,必须创建一个新的Scrapy项目。进入自定义的项目目录中,运行下列命令:
scrapy startproject myspider
注意:我们在写项目时可以使用虚拟环境
2.新建爬虫文件
scrapy genspider jobbole jobbole.com
3.明确目标url
https://www.baidu.com/
4.进入item.py文件创建自己需要爬取的字段名称
标题
title = scrapy.Field()
创建时间
create_date = scrapy.Field()
文章地址
url = scrapy.Field()
5.制作爬虫(spider/baidu.py)
-*- coding: utf-8 -*-
import scrapy
class JobboleSpider(scrapy.Spider):
name = 'jobbole'
allowed_domains = ['jobbole.com']
start_urls = ['http://blog.jobbole.com/all-posts/']
def parse(self, response):
pass
6.分析数据,存储数据
在管道文件(pipeline.py)进行存储。
通用爬虫
通过下面的命令可以快速创建 CrawlSpider模板 的代码:
scrapy genspider -t crawl 爬虫文件 域名
它是Spider的派生类,Spider类的设计原则是只爬取start_url列表中的网页,而CrawlSpider类定义了一些规则Rule来提供跟进链接的方便的机制,从爬取的网页结果中获取链接并继续爬取的工作.
CrawlSpider继承于Spider类,除了继承过来的属性外(name、allow_domains),还提供了新的属性和方法:
rules
CrawlSpider使用rules属性来决定爬虫的爬取规则,并将匹配后的url请求提交给引擎,完成后续的爬取工作。
在rules中包含一个或多个Rule对象,每个Rule对爬取网站的动作定义了某种特定操作,比如提取当前相应内容里的特定链接,是否对提取的链接跟进爬取,对提交的请求设置回调函数等。
class scrapy.spiders.Rule(
link_extractor,
callback = None,
cb_kwargs = None,
follow = None,
process_links = None,
process_request = None
)
使用通用爬虫
第一步:根据要爬取的网页确定需要保存的字段
class ZhilianItem(scrapy.Item):
define the fields for your item here like:
name = scrapy.Field()
job_title = scrapy.Field()
第二步:编写爬虫类
LinkExtractor实例对象
jobListRult = LinkExtractor(allow=r'sou.zhaopin.com/jobs')
第三步:数据保存
Pipelines.py
import json
class ZhilianPipeline(object):
def init(self):```
self.file = open('zhilian.json','a+')
def process_item(self, item, spider):
content = json.dumps(dict(item),ensure_ascii=False) + '\n'
self.file.write(content)
def closespider(self):
self.file.close()
第四步:settings相关设置
1.ROBOTSTXT_OBEY = False 设置是否遵守robot协议
2.DOWNLOAD_DELAY = 3 设置下载延时
3.设置全局的Header
DEFAULT_REQUEST_HEADERS = {
'User-Agent':' Mozilla/5.0 (Macintosh; Intel Mac OS X 10.12; rv:59.0) Gecko/20100101 Firefox/59.0',
}
4.激活pipelines数据处理管道
ITEM_PIPELINES = {
'zhilian.pipelines.ZhilianPipeline': 300,
}
第五步:运行程序
scrapy crawl zhilianCrawl