Java模拟浏览器工具HtmlUnit-登陆实践

HtmlUnit简介

HtmlUnit是一个可以模拟浏览器请求的java工具包,官网链接
,基本实现浏览器基础功能,包括:

  • 加载js,css
  • 执行ajax
  • 处理表单
  • 保存cookies等
    本篇文章简单介绍HtmlUnit的一些概念和基本使用,以一个模拟登陆的实例说明,代码实例在文章最后。

为什么要使用HtmlUnit

  • 不用再自己处理js和css了
  • 不用再自己处理cookies了
  • AND XXX

HtmlUnit基础类

  • HtmlPage:页面类,即每次请求返回的html页面,会自动加载静态资源。
  • HtmlForm:表单类,处理用户名和密码的基础表单。

模拟登陆

1. 创建WebClient并设置配置项

WebClient webClient = new WebClient(BrowserVersion.CHROME)
  • 这里模拟了一个chrome浏览器,并会设置对js和css的处理方式,详细的代码见示例。

2. 从网站的初始域名开始请求

//开始请求网站
HtmlPage page = webClient.getPage("https://gitee.com");
  • 这里以Gitee为例,通常访问网站的根域名时,会跳转到网站的首页或登录页,根据网站的不同后面流程会有差别。
  • Gitee会跳转到一个首页,上面有登录按钮,所以下一步是点击登录按钮

3.点击按钮

 //点击首页上的登陆按钮,跳转到登陆页面
HtmlPage loginPage = ((DomElement) page.getByXPath("/html/body/header/div/div/div[5]/a[1]").get(0)).click();
  • 这段代码获取了首页上的登录按钮Dom元素,并点击,之后会跳转到登录页面。
3.1不了解CSS选择器,如何获取按钮的Dom?
  • 最简单的是使用XPath,可以直接打开chrome的开发者工具,找到要选择的元素,右键复制XPath,粘贴到代码里,搞定!

    image.png

  • 这里注意HtmlUnit的getByXPath方法,返回的是List。一般网站通过XPath获取的元素只有一个,这里直接取List中第一元素就可以。

  • 获取到的元素要强转为DomElement对象,才能使用click()方法模拟点击。

  • 执行点击后,就获取了登陆页对象。

4.填充用户名和密码,并登陆

/*
 * 获取登陆表单,表单如果是依赖js或css生成的,要等待加载完成,现有框架里等待方法不完善
 * 这里可以采用循环等待的方案,等到全部资源加载完,获取到了要取的表单元素再继续执行
 */
while (loginPage.getByXPath("/html/body/div[2]/div[2]/div/div[1]/div[2]/div/form[1]").size() == 0) {
    Thread.sleep(500);
}
//获取登陆表单元素
HtmlForm form = (HtmlForm) loginPage.getByXPath("/html/body/div[2]/div[2]/div/div[1]/div[2]/div/form[1]").get(0);
//用户名input
HtmlTextInput username = (HtmlTextInput) form.getElementsByAttribute("input", "id", "user_login").get(0);
//密码input
HtmlPasswordInput password = (HtmlPasswordInput) form.getElementsByAttribute("input", "id", "user_password").get(0);
//设置input的value
username.setValueAttribute("*****");
password.setValueAttribute("*****");
//登陆
HtmlPage home = ((DomElement) loginPage.getByXPath("/html/body/div[2]/div[2]/div/div[1]/div[2]/div/form[1]/div[2]/div/div/div[4]/input").get(0)).click();
  • 这里有一个静态资源加载的问题,有些要获取的Dom元素,是通过js和css执行渲染出来的。
    • 这里如果直接获取登陆表单,会出现因为js加载不全,导致获取不到的问题。
    • 当前HtmlUnit自带的等待资源加载方法不完善。这里可以简单的使用一个循环,等到获取到了要取的表单元素再继续执行。
  • 获取到表单后,就可以获取Input填充用户名和密码,并模拟点击登录。
  • 之后就会跳转到用户首页。

5.webClient中的cookies

  • 通过上面的步骤,登录成功后,获取的cookies会保存在webClient中,之后再使用这个webClient访问网站的其他页面时,会直接带上,非常方便。

完整代码示例

public void loginGitee() {
        try (WebClient webClient = new WebClient(BrowserVersion.CHROME)) {
            /******配置webClient******/
            //ajax
            webClient.setAjaxController(new NicelyResynchronizingAjaxController());
            //支持js
            webClient.getOptions().setJavaScriptEnabled(true);
            //忽略js错误
            webClient.getOptions().setThrowExceptionOnScriptError(false);
            //忽略css错误
            webClient.setCssErrorHandler(new SilentCssErrorHandler());
            //不执行CSS渲染
            webClient.getOptions().setCssEnabled(false);
            //超时时间
            webClient.getOptions().setTimeout(3000);
            //允许重定向
            webClient.getOptions().setRedirectEnabled(true);
            //允许cookie
            webClient.getCookieManager().setCookiesEnabled(true);

            //开始请求网站
            HtmlPage page = webClient.getPage("https://gitee.com");
            //点击首页上的登陆按钮,跳转到登陆页面
            HtmlPage loginPage = ((DomElement) page.getByXPath("/html/body/header/div/div/div[5]/a[1]").get(0)).click();
            /*
             * 获取登陆表单,表单如果是依赖js或css生成的,要等待加载完成,现有框架里等待方法不完善
             * 这里可以采用循环等待的方案,等到全部资源加载完,获取到了要取的表单元素再继续执行
             */
            while (loginPage.getByXPath("/html/body/div[2]/div[2]/div/div[1]/div[2]/div/form[1]").size() == 0) {
                Thread.sleep(500);
            }
            //获取登陆表单元素
            HtmlForm form = (HtmlForm) loginPage.getByXPath("/html/body/div[2]/div[2]/div/div[1]/div[2]/div/form[1]").get(0);
            //用户名input
            HtmlTextInput username = (HtmlTextInput) form.getElementsByAttribute("input", "id", "user_login").get(0);
            //密码input
            HtmlPasswordInput password = (HtmlPasswordInput) form.getElementsByAttribute("input", "id", "user_password").get(0);
            //设置input的value
            username.setValueAttribute("*****");
            password.setValueAttribute("*****");
            //登陆
            HtmlPage home = ((DomElement) loginPage.getByXPath("/html/body/div[2]/div[2]/div/div[1]/div[2]/div/form[1]/div[2]/div/div/div[4]/input").get(0)).click();
            //搜索项目
            HtmlPage searchPage = webClient.getPage("https://gitee.com/search?utf8=%E2%9C%93&type=&fork_filter=on&q=java");
            //打印列表
            HtmlElement a = (HtmlElement) searchPage.getByXPath("/html/body/div[3]/div[1]/div/div[2]").get(0);
            System.out.println(searchPage.getBaseURL());
            System.out.println(a.getTextContent());
        } catch (Exception e) {
            e.printStackTrace();
        }
    }

本篇文章仅供学习交流使用
以上内容属个人学习总结,如有不当之处,欢迎在评论中指正

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,525评论 6 507
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,203评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,862评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,728评论 1 294
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,743评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,590评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,330评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,244评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,693评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,885评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,001评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,723评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,343评论 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,919评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,042评论 1 270
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,191评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,955评论 2 355

推荐阅读更多精彩内容

  • •前端面试题汇总 一、HTML和CSS 21 你做的页面在哪些流览器测试过?这些浏览器的内核分别是什么? ...
    Simon_s阅读 2,220评论 0 8
  • 前端开发面试题 面试题目: 根据你的等级和职位的变化,入门级到专家级,广度和深度都会有所增加。 题目类型: 理论知...
    怡宝丶阅读 2,584评论 0 7
  • 转载 前端开发面试题 <a name='preface'>前言</a> 本文由我收集总结了一些前端面试题,初学者阅...
    小九喵喵阅读 466评论 0 0
  • 想爬取网站数据?先登录网站!对于大多数大型网站来说,想要爬取他们的数据,第一道门槛就是登录网站。下面请跟随我的步伐...
    闲欢阅读 825评论 0 3
  • HTTP基本原理 URI、URL、URN(Uninform Resource) URI(Identifier):统...
    GHope阅读 2,081评论 2 26