自动化爬虫selenium基础教程

如有帮助,还请留下脚步~~

传送门:本文首次发表地址

一、前期准备

1、在终端进行selenium的安装

pip install selenium

2、下载一个浏览器的驱动程序

这里使用谷歌浏览器,点这下载谷歌浏览器驱动

注意:需要选择对应自己电脑浏览器的版本。

3、将下载好的谷歌浏览器驱动程序移动到当前项目下(可不用移动,填写路径)

二、基础操作

1、实例化一个浏览器对象

from selenium import webdriver

# 实例化一个浏览器对象(传入浏览器的驱动程序)
driver = webdriver.Chrome(executable_path='./chromedriver.exe')

2、对url发起请求

# 对url发起请求
driver.get('URL')

3、标签定位

此处以搜索框为例,获取其id,使用find_element_by_id()对其定位。

# 标签定位
search_input = driver.find_element_by_id('id')

如果是class:

# 标签定位
search_input = driver.find_element_by_class_name('className')

4、标签交互

使用send_keys在搜索框中输入需要搜索的关键字。

# 标签交互
search_input.send_keys('CSDN')

5、点击按钮

点击搜索按钮,在浏览器中使用开发者工具定位搜索按钮的id,click() 进行点击。

# 点击搜索按钮
btn = driver.find_element_by_id('id')
btn.click()

6、回退、前进和关闭

# 回退
driver.back()

# 前进
driver.forward()

# 关闭浏览器
driver.quit()

7、解析数据

# 导包
from selenium import webdriver
from lxml import etree
from time import sleep

# 实例化一个浏览器对象(传入浏览器的驱动程序)
driver = webdriver.Chrome(executable_path='./chromedriver.exe')
# 发起一个指定url请求
driver.get('URL')

# 获取浏览器当前页面的页面源码数据
page_text = driver.page_source

# 解析详细数据
tree = etree.HTML(page_text)
li_list = tree.xpath('xpath路径')
for li in li_list:
    name = li.xpath('以li_list下的xpath路径')[0]
    print(name)

sleep(5)
driver.quit()

8、执行JavaScript程序

这里执行JavaScript程序使得浏览器向下滚动一屏距离。

# 执行一组JavaScript程序
driver.execute_script('window.scrollTo(0,document.body.scrollHeight)')

9、实现无可视化界面的操作(无头浏览器)

# 实现无可视化界面的操作
chrome_options = Options()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--disable-gpu')

driver = webdriver.Chrome(executable_path='./chromedriver.exe', options=chrome_options)

10、实现规避检测(去除浏览器识别)

# 实现规避检测
option = ChromeOptions()
option.add_experimental_option('excludeSwitches', ['enable-automation'])

driver = webdriver.Chrome(executable_path='./chromedriver.exe', options=option)

11、iframe的处理

如果定位的标签存在于iframe标签之中,则须使用switch_to.frame(id),这里的id是iframe标签中的id。

这个在登录QQ空间时可以用到,想学的可以点这里去学习

当然,不止是QQ空间又iframe标签,还有很多地方也是有的。

# 如果定位的标签是存在与iframe标签之中的则必须通过如下操作再进行标签定位
bro.switch_to.frame('iframeResult')  # 切换浏览器标签定位的作用域
div = bro.find_element_by_id('draggable')

12、动作链

鼠标动作:左键单击按住→拖动→释放

这就是动作链

这个可以用在很多登录验证的地方,那些需要滑动验证的,都可以去尝试一下。

from selenium import webdriver
from time import sleep
# 导入动作链对应的类
from selenium.webdriver import ActionChains

driver = webdriver.Chrome(executable_path='./chromedriver.exe')

driver.get('URL')

# 如果定位的标签是存在与iframe标签之中的则必须通过如下操作再进行标签定位
driver.switch_to.frame('iframeResult')  # 切换浏览器标签定位的作用域
div = driver.find_element_by_id('id')

# 动作链
action = ActionChains(driver)
# 点击长按指定的标签
action.click_and_hold(div)

# 这里可以不适用循环,看个人爱好
for i in range(5):
    # perform()立即执行动作链操作
    # move_by_offset(x, y):x水平方向  y竖直方向
    action.move_by_offset(20, 0).perform()
    sleep(0.5)

# 释放动作链
action.release()

sleep(2)

driver.quit()

13、解决特征识别

这个特征识别在很多地方都可以用得上,特别是12306登录滑块验证的时候,非常nice!

关于12306如何使用selenium登录可以点这里进行学习

# 解决特征识别
script = 'Object.defineProperty(navigator, "webdriver", {get: () => false,});'
bro.execute_script(script)

不懂或有疑问等任何问题还请私信或评论

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 211,948评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,371评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,490评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,521评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,627评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,842评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,997评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,741评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,203评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,534评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,673评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,339评论 4 330
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,955评论 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,770评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,000评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,394评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,562评论 2 349

推荐阅读更多精彩内容