直接上手爬虫项目,对好多东西一知半解,这里梳理写关于爬虫的基础知识.
爬虫
获取网页并提取和保存信息的自动化程序
1.获取网页
获取网页的源代码(响应体)
2.提取信息
采用正则表达式提取
3.保存数据
4.自动化程序
自动进行各种异常处理,错误重试
能抓的数据类型
HTML代码
JSON字符串
二进制数据
CSS,JavaScript和配置文件
JavaScript渲染页面
可以使用Selenium,Splash库来实现
会话和Cookies
静态网页和动态网页
动态解析URL中参数的变化,关联数据库并动态呈现不同的页面内容
无状态HTTP
HTTP协议对事物处理没有记忆,分辨用户,通过用户请求时自动附带保存在客户端的Cookies
1.会话
指有始有终的一系列动作消息
2.Cookies
辨别用户身份,进行会话跟踪
3.会话维持
Set-Cookie
4.属性结构
5.会话Cookie和持久Cookie
存储地不同