动态页面的生成有很多种,常见的有两种:
- 一种是直接通过Ajax返回的数据来显示.对于这种,我们可以直接通过分析Ajax的接口来使用requests或者urllib等包直接来获取接口传输的数据,
- 另外一种是返回的数据在页面上再进行加工后才显示的数据,这种数据往往是通过js进行各种复杂的计算得到的也是一种很常见的加密方式,通过requests并不能直接获取
针对上面说的一种情况我们会在另一篇文章中详细介绍,这里我们讨论第二种,通过前端js加密的数据如何获取,当然我们可以直接分析他们的js来读懂整个网站的js但是这需要很大的功夫去了解一个网站,对于一个大型网站可能网站的人员都不一定能全部理解整个网站的js加密方式. 对于我们爬虫来说还有另外一种非常强大的可见即可爬的方式---selenium
selenium
这是一款自动化测试工具,可以驱动浏览器(有界面,无界面)来执行特定的操作,可以模仿人的点击下拉等各种基本操作,对于js加密的信息的抓取非常有效
安装
这里我们会写一篇详细的安装教程大家可以先搜索相关教程这里我们需要selenium 即可
- 直接pip install selenium
selenium的大体功能演示
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.wait import WebDriverWait
browser = webdriver.Firefox() # 创建一个浏览器对象,这里还可以使用chrome等浏览器
try:
browser.get('https://www.baidu.com')# 打开百度的网页
input = browser.find_element_by_id('kw') # 找到id为kw的元素
input.send_keys('Python') # 给这个元素传递一个值'Python'
input.send_keys(Keys.ENTER) # 使用键盘的enter键
wait = WebDriverWait(browser,10) # 浏览器等待10s
wait.until(EC.presence_of_all_elements_located((By.ID,'content_left'))) # 等待直到出现'content_left'
print(browser.current_url) # 输出浏览器当前的url
print(browser.get_cookies()) # 输出cookie
print(browser.page_source) # 输出网页的当前源码
finally:
browser.close() # 关闭浏览器
运行代码会发现火狐浏览器被启动然后自动打开了百度的网页然后在搜索框中输入了 Python(如果看不清楚可以手动添加time模块进行暂停观察) 然后按下了回车键进行搜索,显示结果(同上看不清楚可以添加time模块)然后关闭,在我们的终端显示了很多内容截取其中一点如下:
https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=0&rsv_idx=1&tn=baidu&wd=Python&rsv_pq=ef704a420000296f&rsv_t=da9d9XB5i%2Fps1vejnUbOp0RAAdpd4K6q%2BkAH7Cem%2FPrpHtStgPgxtv8ta7E&rqlang=cn&rsv_enter=1&rsv_sug3=6&rsv_sug2=0&inputT=242&rsv_sug4=242
[{'name': 'BAIDUID', 'value': '590E5CC2557B638BFA8336815259E51A:FG=1', 'path': '/', 'domain': '.baidu.com', 'expiry': 3682926116, 'secure': False, 'httpOnly': False}, {'name': 'BIDUPSID', 'value': '590E5CC2557B638BFA8336815259E51A', 'path': '/', 'domain': '.baidu.com', 'expiry': 3682926116, 'secure': False, 'httpOnly': False}, {'name': 'PSTM', 'value':
...
我们可以去浏览器中取对比发现这个和浏览器的数据是一样的.也就是我们可以利用selenium来获取网页内容,selenium就是我们设定的爬虫,它按照我们给它设定的规则控制浏览器并读取浏览器里的内容.真正做到了可见即可爬.
操控步骤
- 创建浏览器对象
- 访问页面
- 查找需要的内容
- 关闭浏览器
- 创建浏览器对象
我们可以利用创建完成的对象进行各种操作
from selenium import webdriver
browser = webdriver.Chrome()
browser = webdriver.Firefox()
browser = webdriver.Edge()
browser = webdriver.PhantomJS()
browser = webdriver.Safari()
- 访问页面
使用get()方法来请求网页,这里只需要传入一个url即可.比如我们想访问我们这个文章我们可以在上面代码的基础上运行一下代码
url = '//www.greatytc.com/p/9b36413506c7'
browser.get(url)
这里我们就可以打开我们指定的网页,用起来非常方便.
- 查找节点
selenium 浏览器对象提供了很多方法供我们使用用来选择节点信息.
find_element_by_id
find_element_by_name
find_element_by_xpath
find_element_by_link_text
find_element_by_tag_name
find_element_by_class_name
find_element_by_css_selector
eg:
browser.get('https://www.baidu.com')
login_button = driver.find_element_by_link_text('登录')
这里还提供一个通用的方法:
find_element(By.ID,id) # 它需要两个值,一个是查找方式,另外一个这是查找值
如果是多个值的话,我们可以使用find_elements_by 这样的函数来进行查找,也就是上面说的方法在element后面加上一个s对于通用的方法同样的适用:
find_elements(By.ID,id)
- 节点交互
这里可以使用.click() send_keys() clear()等方法来模拟用户的点击,输入,清空等操作 - 获取节点信息
当我们使用selecet_element方法以后会返回一个WebElement对象,这个类型提供给我们了很多节点信息的方法.
- 获取属性:
get_attribute()
eg:
login_button.get_attribute('class)
- 获取文本值
每个WebElement都有text属性通过这个方法我们可以提取标签的文本内容 - 获取id,位置,标签名和大小
WebElememt 节点还提供了一下其他的属性:
id,location, tag_name, size ....这是比较常用的,具体的我们可以查看官方文档
- 切换Frame
网页中有一种节点是iframe,相当于Frame,当我们遇到这样的页面后可以使用switch_to.frame()来进行切换,这里需要传入一个参数: 另外一个frame的名字 - 延时等待
在网页中经常会由于ajax等操作这会导致网页延时才能加载出来,所以我们需要等待一定的时间,确保所有的节点都已经加载出来了.
- 隐式等待
当我们使用implicitly_wait()方法的时候也就是在执行的时候,如果selenium没有找到节点,将会继续等待,等待到我们给出的时间后再去查找一次,如果还是没有出现,将会抛出异常. - 显示等待
当selenium在查找节点的时候如果,在规定的时间内加载出来了这个节点就返回查找的节点,如果到了规定的时间依旧没有加载该节点,就会抛出异常.
关于等待还有很多:
等待条件 | 含义 |
---|---|
title_is | 标题是某内容 |
title_contains | 标题包含某内容 |
presence_of_element_located | 节点加载出来,传入定位元祖,比如(By.ID,'p') |
visibiltiy_of_element_located | 节点可见,传入定位元组 |
visiblity_of | 可见传入节点对象 |
presence_of_all_elements_located | 所有节点加载出来 |
text_to_be_present_in_element | 某个节点文本包含某些文字 |
text_to_be_present_in_element_valve | 某个节点包含某个文字 |
frame_to_be_available_and_switch_to_it | 加载并切换 |
invisibility_of_element_located | 节点不可见 |
element_to_be_clickable | 节点可点击 |
staleness_of | 判断一个节点是否仍在DOM, 可判断页面是否已经刷新 |
aert_is_present | 是否出现警告 |
前进和后退
back() 和forward()方法可实现浏览器的后退和前进功能Cookies
可以对cookie进行获取,添加,删除等操作
.get_cookie()
.delete_all_cookie()
.add_cookie({})选项卡
browser.switch_to_window 可以切换选项卡
import time
from selenium import webdriver
browser = webdriver.Firefox()
browser.get('https://www.baidu.com')
browser.exexute_script('window.open()')
browser.switch_to_window(broser.window_hadles[1])
browser.get('https://www.taobao.com')
time.sleep(1)
browser.switch_to_window(browser.window_handles[0])
browser.get('https://www.duanrw.cn')
11.异常的处理
可以使用try...except 来捕获异常