框架介绍
scrapy是一个自动支持网络异步的框架,用于快速 高效的提取数据和处理数据
image.png
版本安装
image.png
使用流程
终端输入
scrapy startproject 项目名(项目名自己指定,不要用中文,数字开头,建议英文或者拼音简写)
image.png
创建spider
1- 先进入项目下 cd 项目名
2- scrapy genspider spider名字 域名
sprider内容
image.png
运行spider
scrapy crawl 爬虫名
scrapy crawl httpbin
项目出现之后 在终端中可以看到一些框架的运行日志,但是影响观看
image.png
设置
是否遵守君子协议
ROBOTSTXT_OBEY = False
日志 报错时才显示 但是如果项目没反应可以打开 看看是否版本出现问题
LOG_LEVEL = 'ERROR'
UA
USER_AGENT = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 Safari/537.36"
步骤为:scrapy startproject 项目名 ===>进入项目 cd 项目名===> scrapy genspider spider名字 域名
然后找到spider 在里面写爬虫即可
数据存储
数据存储有两种方式
1- 终端命令保存数据
image.png
2-基于管道保存数据
实现步骤
image.png
image.png
image.png
如果要把数据保存到文件中 那每次withopen会浪费资源,所以只需要在爬虫开始的时候,打开文件,爬虫结束的时候关闭连接就可以了,所以scrapy框架还提供了两个方法,自动在开始或者结束的时候执行
image.png