安装Scrapy框架
直接运行pip install scrapy后出现错误提示:
error: command 'cl.exe' failed: No such file or directory
查看官方文档,发现scrapy需要一些依赖包
解决方案:
①进入https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted,找到对应版本的Twisted(Python版本和操作系统版本)
比如我是python 3.6 + window 64位系统,单击后直接下载
②下载后会得到一个Twisted-18.4.0-cp36-cp36m-win_amd64.whl文件,在cmd中进入该文件目录,输入pip install Twisted-18.4.0-cp36-cp36m-win_amd64.whl进行安装
③安装完Twisted后,重新执行pip install scrapy即可
开始今天的爬虫(爬取妹子图片)
建立scrapy项目后
在Terminal中建立模块find
scrapy startproject find
文件目录结构如下
解析scrapy框架结构:
find/spiders/: 放置spider代码的目录。
find/ __init__.py:爬虫项目的初始化文件,用来对项目做初始化工作。
find/items.py:爬虫项目的数据容器文件,用来定义要获取的数据。
find/middlewares.py:爬虫项目的中间件文件。
find/pipelines.py:爬虫项目的管道文件,用来对items中的数据进行进一步的加工处理。
find/settings.py:爬虫项目的设置文件,包含了爬虫项目的设置信息。
scrapy.cfg:爬虫项目的配置文件。