2017.07.19

make plans as Bullet Journal

scrapy crawl zhihu.com:

  1. login
    header
    post_data: {
    username:
    password:
    captcha:
    }
    验证码模拟登陆

  2. 解析
    itemloader
    解析question
    解析answer
    注意:问题url中,知乎现在有两个版本,一个是 url 中只有 question_id,另一个版本是带有answer和 answer_id 的url,这两个版本均解析正常

  3. create table in mysql

  4. 没完成:将 item 数据通过 pipeline 保存到 mysql 中

scrapy 是基于 twisted 的异步框架,所有使用 Request 时,必须指定一个回调函数 callback,默认调用parse

如果Request函数中的回调函数没有调用,可能的愿意就是被 scrapy 中默认的 Offsite Spider Middleware 过滤掉了,只需要加上 dont_filter=True 参数即可,或者将 allowed_domains 设置为空

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容