接触 Scrapy,是因为想爬取一些知乎的数据,最开始的时候搜索了一些相关的资料和别人的实现方式。
Github 上已经有人或多或少的实现了对知乎数据的爬取,我搜索到的有以下几个仓库:
https://github.com/KeithYue/Zhihu_Spider实现先通过用户名和密码登陆再爬取数据,代码见zhihu_spider.py。
https://github.com/immzz/zhihu-scrapy使用 selenium 下载和执行 javascript 代码。
https://github.com/tangerinewhite32/zhihu-stat-py
https://github.com/Zcc/zhihu主要是爬指定话题的topanswers,还有用户个人资料,添加了登录代码。
https://github.com/pelick/VerticleSearchEngine基于爬取的学术资源,提供搜索、推荐、可视化、分享四块。使用了 Scrapy、MongoDB、Apache Lucene/Solr、Apache Tika等技术。
https://github.com/geekan/scrapy-examplesscrapy的一些例子,包括获取豆瓣数据、linkedin、腾讯招聘数据等例子。
https://github.com/owengbs/deeplearning实现分页获取话题。
https://github.com/gnemoug/distribute_crawler使用scrapy、redis、mongodb、graphite实现的一个分布式网络爬虫,底层存储mongodb集群,分布式使用redis实现,爬虫状态显示使用graphite实现
https://github.com/weizetao/spider-roach一个分布式定向抓取集群的简单实现。
其他资料:
http://www.52ml.net/tags/Scrapy收集了很多关于 Scrapy 的文章,推荐阅读
使用python,scrapy写(定制)爬虫的经验,资料,杂。
scrapy 和 javascript 交互例子:
scrapy + selenium 解析javascript 实例
还有一些待整理的知识点:
如何先登陆再爬数据
如何使用规则做过滤
如何递归爬取数据
scrapy的参数设置和优化
如何实现分布式爬取