网页抓取策略和方法

网页抓取策略

在爬虫系统中,待抓取URL队列是很重要的一部分。待抓取URL队列中的URL以什么样的顺序排列也是一个很重要的问题,因为这涉及先抓取哪个页面,后抓取哪个页面。而决定这些URL排列顺序的方法,成为抓取策略。

  1. 宽度优先搜索:是指抓取过程中,在完成当前层次的搜索后,才进行下一层次的搜索。该算法的设计和实现相对简单。为覆盖尽可能多的网页,一般使用宽度优先的搜索方法。这些方法的缺点在于,随着抓取网页的增多,大量的无关网页将被下载并过滤,算法的效率将变低。
  2. 深度优先搜索:是指从起始网页开始,选择一个URL进入,分析这个网页中的URL,一个链接一个链接地抓取下去,直到处理完一条路线之后再处理下一条URL的路线。
  3. 最佳优先搜索:最佳优先搜索策略按照一定的网页分析算法,预测候选URL与目标网页的相似度,或者主题的相关性,并选取评价最好的一个或几个URL进行抓取。
  4. 反向链接数策略:反向链接数是指一个网页被其他网页链接指向的数量。反向链接数表示的是一个网页的内容受到其他人的推荐的程度。
  5. Partial PageRank策略:Partial PageRank算法借鉴了PageRank算法的思想,对于已经下载的网页,连同待抓取URL队列中的URL,形成网页集合,计算每个页面的Page Rank值,计算完之后,将待抓取队列中的URL按照PageRank值的大小排列,并按照该顺序抓取页面。

网页抓取的方法

在实际网络爬虫开发过程中,主要有以下3类方法。

  1. 分布式爬虫
    分布式爬虫主要用于目前互联网中海量URL管理,它包含多个爬虫,每个爬虫需要完成的任务和单个的爬行器类似。它们从互联网上下载网页,并把网页保存在本地的磁盘,从中抽取URL并沿着这些URL的指向继续爬行。由于并行爬行器需要分割下载任务,可能爬虫会将自己抽取的URL发送给其他爬虫。这些爬虫可能分布在同一个局域网之中,或者分散在不同的地理位置。
    现在比较流行的分布式爬虫是Apache的Nutch。Nutch依赖hadoop运行,hadhoop本身会消耗很多的时间。Nutch是为搜索引擎设计的爬虫,如果不是要做搜索引擎,尽量不要选择Nutch作为爬虫。
  2. Java爬虫
    Java爬虫就是用Java开发的抓取网络资源的小程序,常用的工具包括Crawler4j、WebMagic、WebCollector等。这种方法要求使用者对于Java较为熟悉。
  3. 非Java爬虫
    在非Java语言编写的爬虫中,有很多优秀的,如Scrapy框架。使用框架可以大大提高效率,缩短开发时间。Scrapy是由Python编写的,轻量级的、高层次的屏幕抓取框架,使用起来非常方便。它最吸引人的地方在于它是一个框架,任何使用者都可以根据自己的需求进行修改,并且它具有一些高级函数,可以简化网站抓取的过程。总之,使用Scrapy可以很方便地完成网上数据的采集工作,并能完成大量的工作,而不需要程序开发者自己费大力气去开发。

项目实战

用Python抓去制定的网页

在这个实例中,使用urllib模块提供了读取Web页面数据的接口,人们可以像读取本地文件一样读取www和ftp上的数据。urllib是一个URL处理包,这个包中集合了一些处理URL的模块。

  1. urllib.request模块是用来打开和读取URLs的。
  2. urllib.error模块包含一些由urllib.request产生的错误,可以用try进行捕捉处理。
  3. urllib.parse模块包含一些解析URLs的方法。
  4. urllib.robotparser模块用来解析robots.txt文本文件。它提供了一个单独PobotFileParser类,通过该类提供的can_fetch()方法测试爬虫是否可以下载一个页面。

在Python 3中,这个模块的名称是urllib,而Python 2版本中使用的是urllib2 。
下面给出抓取豆瓣首页的代码:

import urllib.request
url = “https://www.douban.com/“
request = urllib.request.Request(url)
response = urllib.request.urlopen(request)
data = response.read()
data = data.decode(‘utf-8’)
print(data)

部分结果截图如下:


部分运行结果

下面的代码可以打印抓取网页的各类信息:

print(type(response))
print(response.geturl())
print(response.info())
print(response.getcode())
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,723评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,003评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,512评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,825评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,874评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,841评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,812评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,582评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,033评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,309评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,450评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,158评论 5 341
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,789评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,409评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,609评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,440评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,357评论 2 352

推荐阅读更多精彩内容