新手向爬虫(二)站点分析

新手向爬虫(一)利用工具轻松爬取简书并分析中我们初步接触了爬虫,关键在于:

  1. 通过工具获取网页内容选择器
  2. 分析页面元素,是否包含隐藏信息
  3. 利用浏览器的开发者工具分析网络请求

现在让我们对简书站点做一定的分析:

Robots.txt

  • 首先,网站自身的robots.txt会为我们提供一定信息。大多数网站会定义/robots.txt, 这样可以让爬虫了解爬取该网站时存在哪些限制,虽然这些只是建议,但是一般情况下良好的网络公民都应当遵守这些限制。关于robots.txt的详细信息可以查看这个网站。让我们看看简书的robots页面吧。
  • 可以看出,简书对无论使用哪种用户代理(User-agent)的爬虫都封禁了某些路径。让人好奇的是有两个以/p开头的路径,一看就是两篇文章,什么文章会让简书对爬虫封禁呢?

    哈哈,原来是某位简友在早先简书安卓app还没出来时自己开发了个简书app,估计是后来简书app出来了,避免大家在搜索时混淆就对爬虫封禁了这两个页面。
  • 我们再看下其它网站的,比如知乎:

    可以看到,有个Crawl-delay : 10,它意味着无论哪种爬虫都应该在两次下载请求之间给出10秒的抓取延迟,我们需要遵从该建议以减轻服务器负担。否则服务器可能封禁你的IP一段时间。
  • 我们再来看看美化版wiki-wikiwand的,除了爬虫信息外,它还提供了一个sitemap(站点地图)来帮助爬虫定位网站最新的信息,而无需爬取每一个网页。(站点地图的标准
  • 让我们打开sitemap看看:


估算网站大小

  • 目标网站的大小会影响我们如何进行爬取。估算网站大小的一个简便方法就是检查大型搜索站点的结果,它们的爬虫很可能爬取过我们感兴趣的页面,不过大型的网站结果并不是很准确,用来有个直观感受就好了;小网站还是比较实用的。
  • 让我们在搜索引擎中加入site参数来看下简书的结果:





    结果有一定差异,百度最多,谷歌其次,搜狗最少,不过都在百万量级。

  • 再看下知乎



  • 搜狗知乎的网页数超过百度不少。
  • 此外,在域名后面添加URL路径可以对搜索结果进行过滤。(很多时候我们只想爬取某一部分有特定信息的网页)。

识别网站所有者

  • 安装pip install whois (python)
  • 对简书使用,可以看到上海佰集信息科技有限公司,不过这里的创立日期和百度百科上2010年8月6日的登记成立日期好像不是一回事。
  • 查看域名归属和其它一些信息也有利于我们的爬虫决策。


  • 再看下知乎和facebook的。


    知乎

    脸书

分析网站所用技术

  • 安装pip install builtwith (python)
  • 对简书使用,当然网站使用技术是多面的,这里可能分析的不够全。
  • 网站所用的框架,以及AngularJS之类的动态加载,ASP.NET的会话管理和表单提交都会影响我们的爬虫策略。


查看网页编码

  • 网页编码也是我们需要注意的地方


  • 可以看出简书是使用了utf8编码,对python爬虫来说没有大问题

参考:Web Scraping with Python —— 用python写网络爬虫

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 197,099评论 5 462
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 82,846评论 2 374
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 144,146评论 0 325
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,789评论 1 267
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,656评论 5 358
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,467评论 1 276
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,870评论 3 389
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,500评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,790评论 1 293
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,828评论 2 314
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,628评论 1 328
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,449评论 3 316
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,881评论 3 300
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,077评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,376评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,879评论 2 343
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,089评论 2 338

推荐阅读更多精彩内容