爬虫之反爬虫策略总结

前介

爬虫的意义和危害

爬虫的意义在于通过技术手段大批量的获取网站信息的一种方式,这种大批量的信息采集往往会对目标网站的服务器主机造成超出其负载的请求,从而造成网站不能针对目标用户进行服务,降低了网站用户对于网站服务的满意度。

反爬的意义

反爬虫就是为了防止爬虫在大批量的采集网站信息的过程对服务器造成超负载,将爬虫行为和用户行为进行分离,从而杜绝爬虫行为妨碍到用户的体验,从而提高用户使用网站服务的满意度。


常见反爬

通过请求头的信息过滤爬虫(Headers)

这类反爬虫策略是检查请求头内部的Headers,爬虫默认的Headers和浏览器的Headers有很大差异。有时网站也会对Referer进行检查,在浏览器内部这些都会自动添加到请求头中。爬虫解决这些反爬的策略就是将Headers修改为浏览器的User-Agent,如果有检查防盗链的话就将Referer的值修改为目标网站域名


基于用户行为的反爬

正常的用户在浏览和点击网页时会有一定的时间间隔,如果同一个IP在短时间内对同一个页面进行多次访问或者进行多次操作,那么这就超出正常用户行为了,网站会阻断该IP的请求。这种问题使用代理IP就可以解决,如果需要在短时间内访问同一个网页的话,使用代理IP在服务器端会显示多个IP访问同一页面,这样就不会被封禁IP了。
或者模仿用户行为,将多次请求中间的时间间隔变大,模仿真正的用户访问网页的行为。


动态页面的反爬虫

有的时候请求的网页中并没有数据,所有没有办法直接从请求的网页中抽取数据,因为数据是使用JavaScript动态渲染上去的,这里的JS渲染使用的是Ajax(网页局部刷新技术),在Ajax中会对数据的API发起请求,然后将返回的真实数据通过DOM技术加载到网页里,这种技术的缺点是在网速较慢的时候,数据的渲染会有比较明显的延迟。解决这类反爬也很简单,只需要找到Ajax发起请求的API的地址,对这个地址再次发起请求,就可以得到想要的数据了。
一般的Ajax的API都是符合Restful规范返回的都是Json数据,这样我们处理的时候就会十分愉悦,但是有的神经病API返回的是JS文件,在文件内部通过判断之后进行网页的数据渲染,这一类数据的提取没有别的简单的方式,只需要手工去除不是Json数据的地方就可以了。
最头痛的是如果Ajax传输的参数是加密参数的话,很难通过模拟请求获取API的数据,只能通过PhantomJS模拟用户点击执行js脚本。


登陆时的验证码问题

一般的图片验证码,可以使用OCR和PIL库进行处理,但是OCR在处理图片验证码时的问题在于,他可以很好的识别英文和数字验证码,对于中文的验证码的识别率十分的低,而且在识别数字的1,和英文的i和I(大写i)以及l(小写L)或者数字0和英文的o和O时有着很明显的缺陷,相连的r和i会被识别为n,f有时会被认作p,不过这些相似的数字和英文对于正常的人来说也有比较低的识别率,一般正常的网站都会刻意避开这些十分相似的数字和英文,所有OCR在处理图片验证码时还时十分有用的。
对于要以顺序点击的验证码来说有两种处理方案,一是手工登陆,劫持Cookie到爬虫中,让爬虫避开登陆时的验证码,另一种方案是,使用CNN(卷积神经网络)或者DNN(深度神经网络)识别出点击顺序,然后计算出点击坐标之后使用PhantomJS模拟点击,(这种方法耗费时间太久,成本太高)。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,826评论 6 506
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,968评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,234评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,562评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,611评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,482评论 1 302
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,271评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,166评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,608评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,814评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,926评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,644评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,249评论 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,866评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,991评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,063评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,871评论 2 354

推荐阅读更多精彩内容