Python3爬虫神器之BeautifulSoup(一)——初识美味的汤

BeautifulSoup是一个可以从HTML和XML中提取数据的Python库,BeautifulSoup化平淡为神奇,通过定位HTML 标签来格式化和组织复杂的网络信息,有了它的帮助你会节省数个小时甚至数天的时间。BeautifulSoup并不是Python的标准库所以要额外安装。我们可以直接pip安装。安装完BeautifulSoup之后我们可以安装一下解析器当然也可以不安装。因为BeautifulSoup支持Python标准库中的HTML解析器,另外两个解析器分别是lxml和纯Python实的html5lib。你们可能会问既然python的标准库都有解析器为什么我们还要去安装额外的呢,自然每一个解析器都有自己的优缺点咯。以下是BeautifulSoup4.2.0文档给出的优缺点

python标准库 , 使用方法:BeautifulSoup(markup,"html.parser") ,优势: 1.python的内置标准库  2.执行速度适中  3.文档容错能力强           劣势:  1.python2.7.2or3.2.2前到的版       2.执行速度适中本文档容错能力弱

lxml HTML 解析器   ,使用方法: BeautifulSoup(markup,"lxml")            优势1.速度快  2.文档容错能力强      劣势:1.需要安装C语言库

lxml XML解析器   使用方法: BeautifulSoup(markup,["lxml","xml"])         优势: 1.速度快     2.唯一支持XML的解析器                   劣势    1.需要安装C语言库

html5lib      使用方法: BeautifulSoup(markup,"html5lib")         优势: 1.最好的的兼容性  2.以浏览器的方式解析文档   3.生成HTML5格式的文档        劣势:  1.速度慢  2.不依赖外部扩展

当然了如果你和我一样懒不想去安装那些扩展的

解析器其实问题也不是很大,Python标准库中的解析器能过满足我们绝大多数的需求

既然安装完了那么我们就要引用它

from bs4 import BeautifulSoup

讲一段文档传入BeautifulSoup的构造方法就能的到一个文档对象,可以传入一个字符串或者文件句柄文档里面给了一个例子。其中文档被转换成Unicode,并且HTML的实例都被转换成Unicode编码Beautiful Soup选择最合适的解析器来解析这段文档,如果手动指定解析器那么Beautiful Soup会选择指定的解析器来解析文档

soup = BeautifulSoup("<html>data</html>")

如果你在Windows上直接运行指端代码是会报错的(linus和Mac上没有试过),emmm,其实不能说是报错,那只是一个warning


warning的大概意思就是:没有确切的语法分析器被指定所以我为这个系统(lxml)使用最便利的HTML解析器这并不是一个问题,但是如果你在其他系统上使用这段代码或者在虚拟环境下使用这段代码那么她将会使用不同的解析器并且表现的不一样

为了祛除这个报错你可以将你的代码从 BeautifulSoup(YOUR_MARKUP})形式转换为BeautifulSoup(YOUR_MARKUP, "lxml")形式。

也就是说我们要将我们的代码改成这种形式

soup = BeautifulSoup("<html>data</html>","lxml")

这段代码的运行就没有问题


BeautifulSoup将复杂的HTML文档转换为一个复杂的树形结构,每个节点都是python的对象所有对象可以分为四种:Tag,NavigableString , BeautifulSoup , Comment

那么我们先分别来解释一下这四个对象是什么意思

Tag:BeautifulSoup 对象通过find 和findAll,或者直接调用子标签获取的一列对象或单个对象,就像bs.div.h1

NavigableString:用来表示标签里的文字,不是标签(有些函数可以操作和生成NavigableString 对象,而不是标签对象)。

BeautifulSoup:被BeautifulSoup解析过的对象

Comment:用来查找HTML 文档的注释标签

啥是树形结构呢,树形结构可以拿下面这张图理解一下嘛


此图来自《python网络数据采集》



我们先来讲讲Tag,这个对象和XML以及HTML原生文档中的tag相同,tag中最重要的属性:name和attributes

name:每一个tag都有自己的名字也就是HTML中标签的名字例如

soup = BeautifulSoup('<b class= "sadfasdf">adfgas</b>','lxml')

tag = soup.b

那么其中b就是这个tag的name我们可以用.name来获取tag的name例如

tag.name

attributes:一个tag可以有多个attributes。如上一例中有一个class的attributes的值为sadfasdf,tag的attributes的操纵方法和字典相同例:tag['class'] 这可以得出结果sadfasdf。也可以直接用‘.’来取值比如:.attrs

例:tag.attrs。可以得出结果:{'class': ['sadfasdf']}。tag的attributes可以修改,其操纵方法也和字典一样

HTML4中定义了一系列可以包含多个值的attributes,HTML5中移除了一些但是增加了更多。其中最常见的多值属性就是class    ,一个tag可以有多个class,还有一些attributes: rel , rev , accept-charset , headers , accesskey。记住在BeautifulSoup中多值返回类型是list

见以下例子:

cs = BeautifulSoup('<p class="sdf  sadf"></p>')

cs.p["class"]

我们可以的到结果['sdf', 'sadf']

如果某个attributes看起来好像有多个值,但没有被定义为多值属性,那么Beautiful Soup会将这个attributes作为字符串返回

见一下例子:

idb = BeautifulSoup('<p id = "my id"></p>')

idb.p['id']

那么我们将会的到'my id'的结果

将tag转换为字符串的时候多值属性将会转换为一个值,还有如果转的文档格式是xml那么就不包含多值

字符串常常包含在tag内也就是<b class = "sdfsadf">pretty good</b>中的pretty good。BeautifulSoup中用NavigableString类型包装tag的字符串

soup = BeautifulSoup('<b class = "sdfsadf">pretty good</b>')

tag = soup.b

tag.string

可以得出pretty good

再查看一下它的类型


tag中包含的字符串不能编辑,但是可以被替换成其它的字符串,用 replace_with() 方法:

>>>tag.string.replace_with("No away")

>>>tag

可以得到结果<b class="sdfsadf">No away</b>

顺便也说说replace_with()这个方法,replace_with()这个方法用来一处文档树中的某段内容并用新的tag或者文本节点代替它。用法:PageElement.replace_with()并会返回被替代的tag或文本节点,可以用来浏览或添加到文档树其它地方


再来简单的提一下BeautifulSoup对象

BeautifulSoup对象表示的是一个文档的全部内容,大部分时候可以将它作为tag对象,它支持遍历文档树和搜索文档树中的绝大多数方法。但是BeautifulSoup对象并不是真正的HTML和XML的tag所以没有name和attributes,但是它有一个值为“[document]”的特殊属性.name



Comment对象是一个特殊的NavigableString对象,但是在HTML文档中时会以特殊格式输出    

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,222评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,455评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,720评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,568评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,696评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,879评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,028评论 3 409
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,773评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,220评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,550评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,697评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,360评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,002评论 3 315
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,782评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,010评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,433评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,587评论 2 350

推荐阅读更多精彩内容