最近迷上看小说,网上免费的可以一页一页翻,但是看久了就嫌麻烦,还是希望离线到本地查看。利用python(threading, Queue, urllib2, regex)做了一个简易的爬虫,思路如下。
--threading,实现多线程
--Queue, 实现子线程与主线程通讯,inque负责输入url,outque负责输出任务日志
--urllib2实现下载功能
--regex负责解析,请测提取条目少的话正则的效率优势很明显,现在很多html标签带有特殊属性,便于定位
--另外,如有需要,可自行补充url提取,模拟登录等模块
附上github链接
[novel_spider](https://github.com/dingld/novel_spider.git)