爬虫之JAVA搜索引擎爬虫识别


   所谓人之初性本善,爬虫诞生之初也是善良的,但是随着时代发展,尤其大数据|机器学习等兴起之后,爬虫也像慢慢长大的人一样,有了 善意恶意 之分(说明:爬虫技术无分善恶,这里指技术利用,最好遵循reboot君子协议,至少不要把人家爬瘫吧)。

1、善意爬虫


  善意爬虫最常见的莫过于各个大的搜索引擎厂家,他们释放数以亿计的爬虫每天孜孜不倦的穿梭于各个服务之间,收录我们的网站服务信息,以供用户检索查询(虽然搜索出来大多数都是广告),作为网站服务的运营商,每天都大开方便之门欢迎他们来爬,虽偶尔会造成服务器压力,可以通过君子协议约束(如reboot文件),这种爬虫就可定义为善意的。


2、恶意爬虫


  恶意的爬虫就不那么友好了,有的是小恶、有的是万恶;常见的小恶:每年的毕业设计来临之季,有些做数据分析相关毕设的同学,为了收集数据,释放了N多个小爬虫在网上乱窜。最重要的是:同学收集好了数据,记得关一下呀,交了毕设,爬虫也被抛到九宵云外,这些无人认领的小爬虫也就成了僵尸爬虫,这种往往是小恶。
  常见的大恶:有没有想过为啥抢不到火车票、为啥抢不到专家号,因为你的手不可能快过爬虫;还有一些所谓大数据创业公司,他们的大数据从哪来?爬虫;这些收集来的数据其中就有很多敏感的个人信息数据,比如某些提供征信服务的小公司,比如某简历大数据公司被“一锅端”(网上可查);这些涉及个人敏感数据非法收集的都是大恶了,还有那些把别人服务器爬瘫的等等。

3、惩恶扬善


  理清楚了善恶,就要惩恶扬善了;在发赏善罚恶令之前,要先识别善恶,辨恶通常的手法是:1、IP频次识别 2、UA判断 3、Referer判断 4、参数hash验证 等手段,这里不是今天的重点(以后详谈识别防护)。重点扬善,就是如何识别善意爬虫,要不花那么多钱做SEO不是打水漂了。


4、JAVA识别善意爬虫


  技术手段很简单,就是通过IP域名反查来实现,window下通过nslookup、linux下通过host来反查,不扯淡,直接上代码(DEMO)。

public class nslookup {

    public static void main(String args[]) {
        System.out.println(spiderBGMU("111.206.221.6"));
        System.out.println(spider360("180.153.232.12"));
    }

    // 百度匹配 http://help.baidu.com/question?prod_id=99&class=476&id=2996
    /*
     * baidu.com baidu.jp 111.206.221.6 百度 
     * googlebot 66.249.67.254 谷歌
     * msnbot-103-25-156-254.search.msn.com 103.25.156.254 必应
     * unknown-68-180-228-x.yahoo.com 68.180.228.254 雅虎
     */
    private static boolean spiderBGMU(String ip) {
        String command = "host"; // 默认linux
        Properties props = System.getProperties();
        String osName = props.getProperty("os.name");
        if (osName != null && osName.toLowerCase().contains("win")) {
            command = "nslookup";
        }

        try {
            Process p = Runtime.getRuntime().exec(command + " " + ip); // host
            BufferedReader br = new BufferedReader(new InputStreamReader(p.getInputStream()));
            String inline;
            StringBuffer sb = new StringBuffer("");
            while ((inline = br.readLine()) != null) {
                sb.append(inline).append(" ");
            }
            br.close();
            System.out.println("baidu>>>" + sb);
            return sb.indexOf("baidu.com") > 0 || sb.indexOf("baidu.jp") > 0 || sb.indexOf("googlebot") > 0
                    || sb.indexOf("msnbot") > 0 || sb.indexOf("yahoo.com") > 0;
        } catch (Exception e) {
            e.printStackTrace();
            return false;
        }
    }

    // 360匹配 http://www.so.com/help/spider_ip.html
    // 这里实现非精确匹配,如果需要精确,可以下载全量列表
    private static boolean spider360(String ip) {
        String item = " 180.153.232.*,180.153.234.*,180.153.236.*,180.163.220.*,42.236.101.*,42.236.102.*,42.236.103.*,42.236.10.*,42.236.12.*,42.236.13.*,42.236.14.*,42.236.15.*,42.236.16.*, 42.236.17.*,42.236.46.*,42.236.48.*, 42.236.49.*,42.236.50.*, 42.236.51.*,42.236.52.*,42.236.53.*,42.236.54.*,42.236.55.*,42.236.99.*";
        System.out.println("360>>>" + objIP);
        if (item.contains(objIP)) {
            return true;
        }
        return false;
    }
}
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,204评论 6 506
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,091评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,548评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,657评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,689评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,554评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,302评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,216评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,661评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,851评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,977评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,697评论 5 347
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,306评论 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,898评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,019评论 1 270
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,138评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,927评论 2 355