大家好,本人爬虫萌新一枚,想通过文章分享自己所学并与大家交流学习,希望大家多多支持,谢谢!
一:什么是爬虫
学习爬虫,首先我们得知道什么是爬虫。
网络爬虫就是模拟客户端发送网络请求,接收请求响应,一种按一定规则,自动的抓取互联网信息的程序。原则上浏览器可以做到的事情爬虫都能做
二.爬虫分类
通用爬虫:通常指搜索引擎的爬虫。
聚焦爬虫:针对特定网站的爬虫。
三.聚焦爬虫的工作流程
接下来的文章我都会以聚焦爬虫为主题,与大家一起学习。
四.robots协议
做爬虫,我们当然得知道什么是robots协议。
robots协议:网站通过robots协议告诉搜索引擎,那些页面可以抓取,那些页面不可以被抓取。
那如何找到网站的robots协议嘞?其实很简单,在主域名后加上/robots.txt便可以看到,如://www.greatytc.com/robots.txt
五.结语
本人新人一枚,如有错误之处请大家多多指正,也希望大家多多支持,本人也会持续更新,希望大家多多支持。