边读pyspider源码边学习边使用

用了一段时间的pyspider,一直没有研究源码。这两天抽空看了看,稍微拿几个点出来研究一下,如果读到哪里不对的地方,请及时指出我好纠正,本文我也会在今后实际使用过程中不断修正。

本文会有错误!写本文的目的是我希望一边写文章,一边看源码。所以并不是看完源码之后的总结,请谨慎阅读。

主要参考文章:

  1. pyspider架构设计
  2. pyspider架构

导航栏:

[TOC]

目录结构

1. database
2. fetcher
3. libs
4. message_queue
5. processor
6. result
7. scheduler
8. webui

结构分析

PySpider主要由schedulerfetcherprocessor三大组件,webui提供前端页面,databaseresult提供持久层(数据层),lib常用工具类,message_queue消息传递层。

三大数据库表

projectdb: project项目管理,管理该项目的代码,状态,速率,上一次的更新时间等基础信息。
taskdb: 组件中互相传递信息的json,封装了所有需要传递给各个组件进行使用和调用的数据,用户的整个爬虫都会被翻译成一系列的task,在组件中进行传递,最后获得结果。
resultdb: 如果将数据存在本地数据库,则一般以resultdb存储

总体结构

pyspider 主要流程图
pyspider 主要流程图
  • 各个组件间使用消息队列连接,除了scheduler是单点组件,fetcher和processor都可以是多实例分布式部署的。scheduler负责整体的调度控制
  • 任务由scheduler发起调度,fetcher抓取网页内容,processor执行预先编写(webui端)的python脚本,输出结果或产生新的提炼任务(发往scheduler),行程闭环
  • 每个脚本可以灵活使用各种python库对页面进行解析,使用框架API控制下一步抓取动作,通过设置回调控制解析动作

三大组件介绍

scheduler

按照binux的介绍该组件有以下特点:

  • 任务优先级
  • 周期定时任务
  • 流量控制
  • 基于时间周期或前链标签(如更新时间)的重抓取调度

那么从源码的角度来看可以归为下面7个方法,由scheduler.py中的Scheduler类的run()方法进入run_once(),可看到下面7个方法:

def run_once(self):
   '''comsume queues and feed tasks to fetcher, once'''

   self._update_projects()
   self._check_task_done()
   self._check_request()
   while self._check_cronjob():
       pass
   self._check_select()
   self._check_delete()
   self._try_dump_cnt()

这7个方法我还没完全过掉,先说我觉得正确的几个,希望之后您也可以帮我补充一下:

  • [x] _update_projects() : 从projectdb中检查project,是否有过期,需不需要重爬
  • [x] _check_task_done() : 从消息队列中取出消息(task)
  • [ ] _check_request() :
  • [ ] _check_cronjob() :
  • [ ] _check_select() :
  • [x] _check_delete() : 检查是否有需要删除的project,pyspider默认Status为STOP,且24小时之后自行删除
  • [ ] _try_dump_cnt() :

fetcher

按照binux的介绍该组件有以下特点:

  • dataurl支持,用于假抓取模拟传递
  • method, header, cookies, proxy, etag, last_modified, timeout等等抓取调度控制
  • 可以通过适配类似phantomjs的webkit引擎支持渲染

fetcher中主要看 tornado_fetcher.py 和 phantomjs_fetcher.js 两个文件。

tornado_fetcher.py

  • HTTP 请求

看名字就知道该.py文件和tornado有所关系,点开可以看到tornado_fetcher.py继承了tornado的两个类:

class MyCurlAsyncHTTPClient(CurlAsyncHTTPClient):

    def free_size(self):
        return len(self._free_list)

    def size(self):
        return len(self._curls) - self.free_size()
class MySimpleAsyncHTTPClient(SimpleAsyncHTTPClient):

    def free_size(self):
        return self.max_clients - self.size()

    def size(self):
        return len(self.active)

查看 tornado.httpclient - 异步HTTP客户端 文档后,很清楚的看到pyspider异步特性就是借助了tornado里的httpclient客户端。

  • class Fetcher(object):

还从以Fetcher类中的run方法为入口看,发现会不断从inqueue队列中取task,进行fetch;
fetch默认为异步,那么抓取的核心方法就是async_fetch(self, task, callback=None)
fetch几点步骤和内容,还没弄懂的内容我没打勾:

  • [x] 从task中获得url
  • [x] callback默认为None
  • [x] fetch判断是否使用异步(默认全部使用)
  • [x] 判断url类型,其实就是判断是否使用phantomjs(ps:这边的startwith=data没懂)判断是否是js, splash。若都不是,则为普通的HTTP请求
  • [x] http_fetch可以看到就是处理cookie,重定向,robots.txt等一系列的方法
  • [ ] 获得result结果后,最后写了一句raise gen.Return(result) 引发的异常退出(这块没懂),只看到tornado.gen模块是一个基于python generator实现的异步编程接口

phantomjs_fetcher.js

先附上phantomjs WebServer部分的官方文档

  • [x] 使用WebServer方式,监听端口(默认为127.0.0.1:9999)
  • [x] 使用POST方式(拒绝GET)提交给Phantomjs监听的端口

webPage是PhantomJS的核心模块,可以通过下面方式获得一个webPage模块的实例:

var webPage = require('webpage')
var page = webPage.create()

再介绍phantomjs_fetcher.js中几个核心的方法:

  • [x] onLoadFinished : 监听页面是否加载完成
  • [x] onResourceRequested : 当页面去请求一个资源时,会触发onResourceRequested()方法的回调函数。回调函数接受两个参数,第一个参数requestData是这个HTTP请求的元数据对象,包括以下属性:
* id: 所请求资源的id号,这个应该是phantomjs给标识的
* method: 所使用的HTTP方法(GET/POST/PUT/DELETE等)
* url: 所请求资源的URL
* time: 包含请求该资源时间的一个Date对象。
* headers: 该请求的http请求头中的信息数组。
  • [x] onResourceReceived : onResourceReceived属性用于指定一个回调函数,当网页收到所请求的资源时,就会执行该回调函数。回调函数只有一个参数,就是所请求资源的服务器发来的HTTP response的元数据对象,包括以下字段:
* id: 所请求的资源编号,此编号phantomjs标识。
* url: 所请求的资源的URL
* time: 包含HTTP回应时间的Date对象
* headers: 响应的HTTP头信息数组
* bodySize: 解压缩后的收到的内容大小
* contentType: 接到的内容种类
* redirectURL: 重定向URL(如果有的话)
* stage: 对于多数据块的HTTP回应,头一个数据块为start,最后一个数据块为end
* status: HTTP状态码,成功时为200
* statusText: HTTP状态信息,比如OK

最后通过调用page.open发送请求给Phantomjs
通过make_result方法返回response

processor

按照binux的介绍该组件有以下特点:

  • 内置的PyQuery,以jQuery解析页面
  • 在脚本中完全控制调度抓取的各项参数
  • 可以向后链传递信息
  • 异常捕获

我还没具体看,简单的看了一眼先得出以下结论:

  • [x] 去取来自fetcher的task,调用task中process变量的callback函数(python脚本,存在projectdb中)
  • [x] 将合适的数据输出到result
  • [x] 有其他后续任务则重新放入消息队列并返回到scheduler中。

其他组件

webui

前端页面是用Flask框架搭建的Web页面,具有以下功能:

  • web 的可视化任务监控
  • web 脚本编写,单步调试
  • 异常捕获、log捕获、print捕获等

message_queues

因为暂时就用到了Redis,所以介绍一下源码中用到的Redis方法,其他的可见Redi官方文档

  • [x] loop key : 移除并返回列表key的头元素
  • [x] rpush key value : 将一个或多个value值插入到表key的表尾
  • [x] llen key : 返回列表key的长度
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,294评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,780评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,001评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,593评论 1 289
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,687评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,679评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,667评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,426评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,872评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,180评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,346评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,019评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,658评论 3 323
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,268评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,495评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,275评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,207评论 2 352

推荐阅读更多精彩内容