一个爬简书所有历史文章的爬虫

闲来无聊写的一个爬虫,因为我看好像没有人写类似的,所以就发上来。
写出这种并不是特别难。

原因

简书上的文章看上去还不错哦
但是每次只能看到最近发的几篇
我试过把字典压在下键上面让他翻页
结果一中午过去了还没翻到底
但是浏览器已经卡到爆了(╯‵□′)╯︵┻━┻

怎么办呢
所以我就写了这个看似非常蠢的脚本,可以直接把简书诞生到现在的所有发过的帖子的链接
爬下来,要看哪个不看哪个你就自己定夺喽

当然我只喜欢看与程序员相关的专栏的,其他的我不感兴趣
要看其他的自己把相应的链接改一下呗

收获

中文编码

保存为utf-8才是王道,开始保存为gbk解析到一多页就碰到了不可解析的字符
后来还是encode为utf8,然后前面加上标示就行了

续传

要是中间网断了就直接从那一页接着写文件就行了

爬虫文件

点这里

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 173,274评论 25 708
  • 1. 前言 这篇文章藏在心中已经好一段时日了,迟迟不敢动笔,主要是担心不知道该如何去组织这样一篇技术文章。 其实个...
    lanzhiheng阅读 5,499评论 19 48
  • 这两天在武汉开会居然碰到了当年在同济进修的许多同学,大家相见甚欢!昨晚老同学饶院长居然请我们一起吃个饭,真的太开心...
    精进的医生阅读 838评论 2 7
  • 原来一直不知道别的朋友们怎么发原创,现在可算是找到了“红袖添香”的所在。
    张眼看世界阅读 283评论 0 0
  • 博客如茶 人活着必须吃饭,当然,这饭不仅仅指粮食,果蔬肉蛋也算。人活着就不能不喝水,当然,这水不仅仅指白水,五花八...
    二班班阅读 279评论 0 0