关于 Selenium 的一些小点

难以想象,来到新岗位上做的事情竟然还可以用老套路去极大地提高效率,甚至在某些层面上,工作方式都是相似的,让人有种似曾相识的怪异感。尤其是这次,竟然是用脚本抓自己内部的网站了……谁让现有的系统不能自动做这些统计呢,连 SQL 也不暴露出来,手动做实在是太累了。

本文不成体系,说一些零碎的小点。

1. 如何修改只读控件的内容?

网页逻辑是,选择日期的文本框,点击之后由弹出的日期选择控件来完成日期输入,禁止用户修改日期文本框内容。于是通过 element.send_keys() 方法发送字符串时,会提示错误,无法修改只读属性的内容。

查了三四种解决方法,说什么的都有,甚至还有说模拟整个鼠标点击过程的……

简单有效的方法是,通过在页面内执行 JS 代码,将控件的只读属性取消。使用 webdriverexecute_script() 方法来在当前页面上执行 JS 脚本。核心是网页对象的 removeAttribute() 方法,指定移除 readonly 属性,不管他本来是 true 还是 false。具体如何定位到想要取消属性的对象,有很多种方法,最方便的情况是这个控件有全局唯一的 ID,这样直接按照 ID 搜索即可。否则的话可能需要从一个可以被唯一确定的父级节点向下一步步查找。下例将一个 ID 为 targetElement 对象的只读属性移除。

# Python Code
from selenium import webdriver

# Settings
URL = "http://www.targetURL.com"
targetXPath = '//*[@id="targetElement"]'

# Browse page
driver = webdriver.Chrome()
driver.get(URL)

# Disable readonly attribute
driver.execute_script("document.getElementById('targetElement').removeAttribute('readonly')")

注意,由于 JS 里是单引号,这里的文本使用双引号。另外,引号内的语句正确性要手动检查。

这样取消掉属性之后就可以正常使用 send_key() 方法了,不过这个操作需要在每次页面发生刷新之后都要进行一次,执行结果是不会被缓存的。

2. 无法使用 element.clear() 方法?

有一个情况违反直觉:将控件的只读属性取消之后,仍然不能通过 element.clear() 方法清空这个文本框,错误提示大概是“无法对只读控件使用 clear() 方法”,但是实际上可以用 send_keys() 发送文本啊。

因为我很笨,所以我用的解决方法也很简单粗暴——把退格符当做按键通过 send_keys() 方法直接发给文本框,向左删除一个字符。

# Python Code
from selenium.webdriver.common.keys import Keys

...

element = driver.find_element_by_xpath(targetXPath)
element.send_keys(Keys.BACKSPACE)

字符太多怎么办?——办!

for i in range(0, 100):
    element.send_keys(Keys.BACKSPACE)

没办法,我就会这样了。或者可以通过 JS 脚本来清空文本框内容?一定可以的,但是我不会 JS 啊……目前第一阶段,先解决问题是主要的。

3. 如何解决登录问题?

抓取目标是后台管理系统的一些统计数据,需要身份验证,一直是使用用户名和密码登录的。然后我就很天真地用 Selenium 去自动填写两项内容,点击登录。然后发现多弹出一个文本框要求输入验证码,看来是程序化登录被识别出来了。

然后就想着怎么解决这个二维码,以其复杂程度,开源的 OCR 不大可能有很大成功率识别出来。而登录系统有最多错误次数限制,不能贸然反复尝试。

然后就想着我先登录一次,然后保存下来 cookie,下次登陆的时候自动取用。试了一下,但因为每次启动浏览器驱动器,都是一个新进程,老的 cookie 没法用,还是过不了登录界面。

网上有文章说,很多工程师会在系统身份验证中留下后门,在保证安全的同时尽量让自动化测试更方便。问题在于,虽然我是我司的员工,但没有相关权限,也不认识搞这个系统的工程师,更有可能即便认识了人家也不希望我这么用。所以到头来还是得我自己解决这个问题。

咋办呢?——办!

那么我就手动登录然后自动抓数据好了。

# Pyhon Code
import time

...

driver.get(URL)
time.sleep(30)

...

打开网页后,先给我 30 秒时间登录系统,手动输入用户名和密码,然后如果遇到验证码的话,再手动输入一下,点击登录。此后等待计时器到时,再自动去扒数据。

啊!我觉得这个想法实在是太野蛮了,一点都不专业,也不优美,但是真能解决问题啊……太山寨了。有机会一定去学习如何用正经的办法去处理这样的情况,可能需要很多技术,很多技巧,很多工具,需要很多的学习。

大体上就是这样,我觉得自己虽然很业余,但是处理这些事情的思路是在是太亮了。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 196,397评论 5 462
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 82,585评论 2 373
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 143,521评论 0 325
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,645评论 1 267
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,489评论 5 358
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,366评论 1 274
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,787评论 3 387
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,432评论 0 255
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,732评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,775评论 2 314
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,550评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,393评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,802评论 3 300
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,036评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,324评论 1 253
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,757评论 2 342
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,958评论 2 336

推荐阅读更多精彩内容

  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 171,147评论 25 707
  • 发现 关注 消息 iOS 第三方库、插件、知名博客总结 作者大灰狼的小绵羊哥哥关注 2017.06.26 09:4...
    肇东周阅读 11,952评论 4 60
  • 文/雁南飞 前天“我的花儿不知名”里提到的老家的山,这是我姑拍的,小时走的山路,没有经过人工加工过,很美,这是截取...
    雁南飞fly阅读 182评论 10 16
  • 周一:米饭日 运动1小时 周二:轻断食日 吃两餐 运动半小时 周三:学习日/土豆日 周四:米饭日 运动一小时 周五...
    Emma_Morley阅读 220评论 0 0