85.http权威指南-第9章-爬虫

爬虫也被称为蜘蛛:是一种机器人,它会递归地对各种信息性web站点进行遍历,根据html连接创建的网络。网络搜索就是利用爬虫,把所有文档都拉回来,然后对这些文档进行处理,形成一个可搜索的数据库。

爬虫要避免进入循环。

避免循环和重复的方式:

  • 规范化url
  • 广度优先的爬行
  • 节流(限制一段事件内机器人可以从一个站点获取的网页数)
  • 限制Url大小
  • url站点黑名单(访问到该url时避开)
  • 模式检测(制定规则)
  • 内容指纹(重复性检查)
  • 人工监视

记录爬虫访问地址的几种方式:

  • 树和散列表
  • 有损的存在位图(填数据)
  • 检查点(存储结果道硬盘上)
  • 分类
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。