小白学 Python 爬虫：自动化测试框架 Selenium 从入门到实战

引言

前面连续几篇爬虫实战不知道各位同学玩的怎么样，小编是要继续更新了，本篇我们来介绍一个前面已将安装过的工具： Selenium ，如果说是叫爬虫工具其实并不合适，在业界很多时候是拿来做自动化测试的，所以本篇的标题也就叫成了自动化测试框架。

至于为什么叫这个名字我们就不去深究了，老外起名字的想象力还是相当可以的。

它可以通过驱动程序驱动浏览器执行特定的动作，这个特性对我们爬取由 JavaScript 动态渲染的页面是非常友好的。

因为由 JavaScript 动态渲染的页面，这种页面上的 JavaScript 通常经过了编译打包，看到的都是简码，非常难以阅读。

其实他们编译打包的目的就是不想让别人看，但是由于浏览器的特性由所有人都看得到，这个就比较尴尬了。。。

比较常见的打包方式有 webpack 打包等等。

有感兴趣的同学可以在留言区留言，人多的话小编后续可以分享一些前端的内容。

前置准备

在开始之前，如果还没安装过环境的同学建议还是翻一翻前面你的文章，先把环境搞定。

请确认自己已经安装了 Chrome 浏览器并且也已经正确的配置了 ChromeDriver ，然后还需要正常的安装了 Selenium 库。

首先，还是官方网址敬上：

官方文档：https://selenium.dev/selenium/docs/api/py/api.html

有任何问题找官方，看不懂可以使用翻译软件。

基础操作

以上前置准备都 ok 了以后，我们开始了解一下 Selenium 的一些基础操作把。先写一点简单的小功能演示一下：

from selenium import webdriver

from selenium.webdriver.common.keys import Keys

browser = webdriver.Chrome()

browser.get('https://www.baidu.com')

input = browser.find_element_by_id('kw')

input.send_keys('极客挖掘机')

input.send_keys(Keys.ENTER)

print(browser.current_url)

print(browser.get_cookies())

print(browser.page_source)

运行以上代码，可以看到自动弹出来一个 Chrome 浏览器，并且上面标示了： Chrome 正受到自动软件的控制。然后打开了百度，在输入框中输入了 “极客挖掘机” 进行搜索。

再搜索结果出来后控制台打印了当前的 URL 、 cookies 和网页的源代码。

控制台的运行结果就截个图吧，内容太长就不贴了。

可以看到， Selenium 拿到的内容，都是真实展示在浏览器中的内容。由 JavaScript 动态加载的页面生成的 DOM 节点在 Selenium 下也无所遁形。

这个很好解释，因为 Selenium 是直接拿到的浏览器展示的内容。

声明浏览器对象

Selenium 支持非常多的浏览器，如：

from selenium import webdriver

# 声明浏览器对象，需对应的驱动程序方可使用

browser = webdriver.android()

browser = webdriver.blackberry()

browser = webdriver.chrome()

browser = webdriver.edge()

browser = webdriver.firefox()

browser = webdriver.ie()

browser = webdriver.opera()

browser = webdriver.phantomjs()

browser = webdriver.safari()

可以看到有我熟悉的 IE 浏览器、 Edge 浏览器、 FireFox 浏览器、 Opera 浏览器等等。

访问网页

访问网页可以使用get()方法，参数传入我们想要访问的网站即可：

from selenium import webdriver

browser = webdriver.Chrome()

browser.get('https://www.jd.com/')

print(browser.page_source)

通过上面两行代码，我们可以看到自动打开了浏览器并访问的京东，在控制台打印了京东的源代码。

当然，如果想要程序自动关闭浏览器的话可以使用：

browser.close()

这句话加在上面可以看到浏览器打开后访问京东一闪而过就关掉了。

查找单个节点

我们获取到网页后，第一步肯定是要先查找到 DOM 节点啊，然后可以直接从 DOM 节点中获取数据。

不过有了 Selenium 以后，我们不仅可以查找到节点获取数据，还可以模拟用户操作，比如在搜索框输入某些内容，点击按钮等等操作，不过还是先看看怎么查找节点：

从上面这张图可以看到，我们想要获取输入框，可以通过 id 进行获取，那么我们接下来的代码要这么写：

from selenium import webdriver

browser = webdriver.Chrome()

browser.get('https://www.jd.com/')

input_key = browser.find_element_by_id('key')

print(input_key)

结果如下：

<selenium.webdriver.remote.webelement.WebElement (session="86d1ae1419bee22099a168dfbf921a27", element="53047804-ad39-4dfd-b3fb-a149fb1c8ac8")>

可以看到，我们获得的元素类型是 WebElement 。

小编这里顺手列出所有的获得单个节点的方法：

find_element_by_id

find_element_by_name

find_element_by_xpath

find_element_by_link_text

find_element_by_partial_link_text

find_element_by_tag_name

find_element_by_class_name

find_element_by_css_selector

此外， selenium 还未我们提供了一个通用方法find_element()，它需要传入两个参数：查找方式 By 和值。实际上上面示例中的查找方式还可以这么写（效果完全一样哦~~~）：

from selenium import webdriver

from selenium.webdriver.common.by import By

browser = webdriver.Chrome()

browser.get('https://www.jd.com/')

input_key1 = browser.find_element(By.ID, 'key')

print(input_key1)

结果小编就不贴了，各位同学可以自己运行下进行对比。

查找多个节点

比如我们要查找左边的这种导航条的所有条目：

可以这么写：

lis = browser.find_elements_by_css_selector('.cate_menu li')

print(lis)

结果如下：

[<selenium.webdriver.remote.webelement.WebElement (session="6341ab4f39733b5f6b6bd51508b62f1d", element="8e0d1a8c-d5dc-4b1f-8250-7f0eca864ea7")>, <selenium.webdriver.remote.webelement.WebElement (session="6341ab4f39733b5f6b6bd51508b62f1d", element="15cd4dc9-42f4-4ed7-9258-9aa29073243c")>,

......]

太多了，小编后面的结果就省略掉了。

下面列出来所有的多节点选择的方法：

find_elements_by_name

find_elements_by_xpath

find_elements_by_link_text

find_elements_by_partial_link_text

find_elements_by_tag_name

find_elements_by_class_name

find_elements_by_css_selector

同样，多节点选择也有一个 find_elements() 的方法，小编这里就不展示，各位同学自己试一试。

本篇先到这里，下一篇我们接着介绍交互操作。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 212,332评论 6赞 493
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 90,508评论 3赞 385
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 157,812评论 0赞 348
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 56,607评论 1赞 284
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 65,728评论 6赞 386
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,919评论 1赞 290
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 39,071评论 3赞 410
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,802评论 0赞 268
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 44,256评论 1赞 303
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,576评论 2赞 327
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,712评论 1赞 341
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 34,389评论 4赞 332
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 40,032评论 3赞 316
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,798评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,026评论 1赞 266
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 46,473评论 2赞 360
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 43,606评论 2赞 350

小白学 Python 爬虫：自动化测试框架 Selenium 从入门到实战

推荐阅读更多精彩内容