七、Scrapy框架 – CrawlSpider爬虫介绍
之前使用普通的Spider,我们是自己在解析完整个页面后获取下一页的url,然后重新发送一个请求。有时候我们想要这样做,只要满足某个条件的url,都给我进行爬取。那么这时候我们就可以通过CrawlSpider来帮我们完成了。CrawlSpider继承自Spider,只不过是在之前的基础之上增加了新的功能,可以定义爬取的url的规则,以后scrapy碰到满足条件的url都进行爬取,而不用手动的yield Request。
创建CrawlSpider爬虫:
之前创建爬虫的方式是通过 scrapy genspider[爬虫名字][域名] 的方式创建的。如果想要创建CrawlSpider爬虫,那么应该通过以下命令创建:
scrapy genspider –t crawl [爬虫名字][域名]
上一篇文章 第六章 Scrapy框架(六) 2020-03-08 地址:
//www.greatytc.com/p/e67be6e23598
下一篇文章 第六章 Scrapy框架(八) 2020-03-10 地址:
//www.greatytc.com/p/08be0e880cff
以上资料内容来源网络,仅供学习交流,侵删请私信我,谢谢。