1.掌握http以及https的概念和默认端口
2.掌握爬虫关注的请求头和响应头
3.了解常见的响应状态码
4.理解浏览器和爬虫爬取数据的区别
区别:
https比http更安全,但是性能更低
http更常用
http是明文传输,如果截获报文,就可以获取想要的东西。
http:超文本传输协议,默认端口号:80
超文本:是指超过文本,不仅限于文本,还包括图片,音频,视频等文件。
传输协议:是指使用共同约定的固定格式来传递转换成字符串的超文本内容。
https=http+ssl(安全套接字层) 默认端口号 443
ssl对传输的内容,主要就是超文本进行加密
常见的请求头和响应头
1.请求头
host:域名,主机号和端口
connection:keep-alive :长连接,三次握手一次连接,这一次的时间比较长
upgrade-insecure-requests:升级为https请求
*user-agent:用户代理,告诉服务器,发请求的浏览器或者机器信息
*referer:这个请求是从哪个页面发起的,用来检查一个请求是不是合法请求,还可以用来防盗链(图片、视频)
防盗链:如何把网页上一个图片地址复制到别的地方打开,发现看不了,就是因为内部检查了referer
*cookie:状态保存
2.响应头
*set-cookie
常见的响应状态码
(所有的状态码都不可信,一切以是否从抓包得到的响应中获取到的数据为准)
200:成功
302:跳转,新的url在响应的location头中给出
303:浏览器对于Post的响应进行重定向至新的url
307:浏览器对于Get的响应进行重定向至新的url
403:资源不可用,服务器理解客户的请求,但拒绝处理它(没有权限)
404:找不到该页面
500:服务器内部错误
503:服务器由于维护或者负载过重未能应答,在响应中可能会携带retry-after响应头,有可能是因为爬虫频繁访问url使服务器忽视爬虫的请求,最终返回503响应状态码。