拉勾教育专栏文章转markdown、拉勾教育专栏文章转pdf
请自行关注公众号: 小张睡不饱 ,发送:拉勾教育专栏,获取github代码地址,
需要相关下载好的专栏内容,后台发送你需要的专栏名称,我看到后会下载下来发给你
- 支持批量下载。速度取决于你的网速
- 支持多进程抓取
- 支持下载markdown、pdf版本。视频资源抓取待完成,进度60%
- 点个star 留着以后用呀
结果展示
爬取文章
启动入口 main.py 的 main 方法
# 创建parser实例
lg = LaGouParser()
# 待抓取的课程ids
lg.course_ids = '3,9,64,59'
# 是否抓取文章
lg.download_article = True
# 是否将文章保存为markdown
lg.article2md = True
# 是否将文章保存为pdf
lg.article2pdf = True
# 是否抓取视频
lg.download_video = False
# 是否使用多进程抓取(16)
lg.use_parallel = True
lg.run()