QUANTAXIS.SPIDER 爬虫部分

QUANTAXIS 爬虫部分

目前的QUANTAXIS爬虫是用python的scrapy框架写的,为了运行JavaScript,还使用了selenium+phantomjs作为浏览器内核.爬完的数据都存放在mongodb里面.

原始的quantaxis_spider架构

之后可能会向纯JavaScript爬虫去转变,但目前先把python下的爬虫框架梳理一下.

python -m pip install -i https://pypi.doubanio.com/simple scrapy
python -m pip install -i https://pypi.doubanio.com/simple selenium

安装scrapy,selenium

安装完在命令行输入scrapy

scrapy startproject projectName(你的爬虫名)
cd projectName

安装项目

安装完了会有几个项目

-项目名称
  --scrapy.cfg(配置文件)
  --爬虫名命名的文件夹
      --items.py
      --middleware.py
      --pipelines.py
      --settings.py
      --_init.py
      --spider(文件夹)
          --_init_.py
          --爬的网站名命名的python文件.py

第一层目录

第二层目录

第三层目录

运行爬虫在第一层

scrapy crawl 爬虫名

组件都在第二层目录里
items.py 主要是保存的管道
middleware.py 中间件,一般而言,只用他的下载中间件
pipelines.py 和数据库交互的管道
settings.py 设置文件

第三层目录下
主要是核心逻辑,从哪里爬(start_url)
爬到以后的响应处理(从response里面取出,selector去选择你需要的内容),一般是正则化或者是xpath取出
处理后的存储(items的引入)

具体的案例
QUANTAXIS_SPIDER

最后编辑于：2017.12.05 13:00:23

QUANTAXIS.SPIDER 爬虫部分

QUANTAXIS 爬虫部分

推荐阅读更多精彩内容