对于爬虫的初次认识是在9年前,学习网站优化时,时常听到老师说起,那时就认为它很神器,当看到学习PYTHON时,可以学习爬虫技术,就报名了。但学习一但被暂停,没有想到再触碰时,已是将近小半年的时间。从7月到11月,无数次的提醒,但最终会落下。所以以这个在线笔记,在线课堂的方式,让自己将课程学习完。
目录
第1节 了解爬虫和浏览器的原理课程评价课程问答
01互动剧本: 了解爬虫和浏览器的原理
02互动练习: 下载文章
03互动练习: 下载图片
知识点:学习什么是爬虫
第2节 学习HTML
01互动剧本: 学习HTML
02互动练习: “开课吧食堂”开始营业
03点播: 如何查看网页的源代吗
知识点:HTML基础
第3节 我的第一个小爬虫
01互动剧本: 我的第一个小爬虫
02互动练习: 菜谱爬虫
知识点:学习BEAUTIFU LSOUP
第4节 BeautifulSoup实践 【走进电影世界】
01互动剧本: BeautifulSoup实践
02互动练习: 做一顿丰盛的料理
知识点: BeautifulSoup实践
第5节 又见五月天
01互动剧本: 又见五月天
02互动练习: 私人日记本
知识点:了解JSON
第6节 爬取五月天全部歌曲清单 【带上参数的怕爬虫】
01互动剧本: 爬取五月天全部歌曲清单
02互动练习: 学唱五月天的歌
03互动练习: 让我们换个歌手
知识点:学习请求带上参数
第7节 存储我们爬取到的数据 【存储爬虫成果】
01互动剧本: 存储我们爬取到的数据
02互动练习: 存储豆瓣新片榜
知识点:存储CSV和EXCEL
第8节 项目实操【期中总结】
01互动剧本: 项目实操
02互动练习: 获取歌曲评论
知识点:完整做一个爬虫小项目
第9节 学会使用cookie
01互动剧本: 学会使用cookie
02互动练习: “解密”加密文章
知识点:cookie
第10节 用程序指挥浏览器 【自动浏览器】
01互动剧本: 用程序指挥浏览器
02互动练习: 用“selenium”来评论菜谱
知识点:Selenium
第11节 让爬虫定时向你汇报 【随时爬虫运行状态】
01互动剧本: 让爬虫定时向你汇报
02互动练习: 这周有什么新电影看?
知识点:定时任务通知
第12节 建立爬虫军队 【爬虫“大军”来袭】
01互动剧本: 建立爬虫军队
02互动练习: 成为一个书虫
知识点:协程
第13节 健身的时候该怎么吃? 【协程实战】
01互动剧本: 健身的时候该怎么吃?
02互动练习: 从薄荷网查询食物热量
知识点:协程实战
第14节 Scrapy的用法 【学习爬虫框架上】
01互动剧本: scrapy的用法
02互动练习: 再爬豆瓣新片榜
知识点:Scrapy
第15节 建立一个组织有序的爬虫 【学习爬虫框架下】
01互动剧本: 建立一个组织有序的爬虫
02互动练习: 爬取豆瓣图书短评
03互动练习: 爬取当当图书榜单
知识点:Scrapy
第16节 青山不改,绿水长流 【成为爬虫新军】
01互动剧本: 青山不改,绿水长流
知识点:全能复习+如何应对反爬虫
第1关,初识爬虫,你会了解爬虫的工作原理,写出一个简单的爬虫程序,学会爬虫的第1步:获取数据。
第2关,你将会快速入门HTML基础知识,达到读懂和修改HTML文档的水平。有了这些基础,你才能去学习如何解析数据和提取数据。
第3、4、5、6关,我会教你爬虫的第2和第3步:解析数据和提取数据。同时,你还会学到两种不同的发起请求的方式。
第7关,你将学会存储数据,即把目标数据写入到本地的Excel表格中。到此,你就学会了爬虫完整的四个步骤,掌握了最基本的爬虫技能啦。
第8关,我们一起做一个项目,爬取一个知乎大v的所有文章,并且存到Excel中。以此,我们巩固和复习了1-7关的所有知识。第8关会是一个分水岭,后面关卡的进阶知识都建立在前7关的基础上。
第9关,学会cookies,就可以让浏览器记住你,你们可以更方便地长期保持联系,而不是在一次见面之后就相忘于江湖。
第10关,学习控制浏览器,来应对爬虫中一些更复杂的情况。第11关,你的爬虫会变得更自动化,爬虫程序不但可以定时工作,还可以把爬取结果传递给你。
接下来的4关,你将学会更高效更强大的爬虫方法,让爬虫技能升级。
第16关毕业总结,就到了告别的时刻了。这时你也学成出师,可以用爬虫知识去做自己想做的事情了,让爬虫为你消灭重复劳动,高效获取信息,创造出更多价值。
以上,就是爬虫学习大纲。
了解完整个路线,接下来让我们开始实战闯关-----编写自己的第一个爬虫。