Chrome多用户实例基于CDP的Web爬虫自动化cookie获取技术研究

一 Chrome CDP简介和原理

1.1 Chrome CDP的概念

  Chrome DevTools Protocol (CDP) 是一种允许第三方应用程序与浏览器进行通信的协议。它提供了一种与Chrome浏览器交互的方式,包括浏览器的各种功能和性能数据。通过CDP,开发者可以自动化测试、调试和监控浏览器行为,以及实现与浏览器交互的功能。

1.2 Chrome CDP的原理

  Chrome CDP基于HTTP和WebSocket协议,通过这些协议与Chrome浏览器进行通信。在CDP中,浏览器和应用程序之间建立了一个双向通信通道,允许两者互相发送请求和接收响应。浏览器端实现了一个CDP服务器,处理来自应用程序的请求,并将结果返回给应用程序。

1.3 Chrome CDP在web爬虫中的应用

  在web爬虫中,Chrome CDP可以用于自动化获取网页内容、处理网页元素、模拟用户行为等操作。通过CDP,爬虫可以与浏览器交互,获取更准确的网页数据,同时也可以模拟用户的操作,如点击按钮、填写表单等。此外,使用CDP还可以实现自动化测试和监控浏览器行为等功能,提高web爬虫的开发效率和准确性。

二 浏览器启动和参数配置

2.1 通过快捷方式查找chrome的启动路径和参数

  在Windows系统中,我们可以利用快捷方式的特性来查找Chrome的启动路径和参数。首先,找到Chrome的快捷方式,右键点击并选择“属性”,在“目标”一栏中,可以看到完整的启动路径和参数。这些参数对于后续的配置和调试都是非常重要的。

2.2 解析启动参数

  Chrome的启动参数多种多样,其中一些参数对于我们的爬虫自动化任务来说是关键的。例如,--user-data-dir参数可以指定一个用户数据目录,让Chrome使用特定的用户配置,这对于我们模拟用户行为至关重要。此外,--incognito参数可以让Chrome以隐身模式启动,这样可以避免浏览器记录历史记录和cookies。

2.3 通过--profile-directory来指定用户

  在Chrome中,每个用户的配置信息都保存在一个特定的目录下。通过--profile-directory参数,我们可以指定使用哪个用户的配置。例如,我们可以使用--profile-directory=Default来使用默认用户的配置,或者使用--profile-directory=Profile 1来使用名为“Profile 1”的用户的配置。这样,我们就可以在爬虫任务中为每个用户分别模拟其浏览器行为,提高数据的准确性和可靠性。

三 Chrome浏览器的启动与CDP的使用

3.1 如何通过chrome.remote来依次启动浏览器

  为了通过chrome.remote来启动浏览器,首先需要确保已经安装了Chrome浏览器,并且你的爬虫程序有足够的权限来启动和控制它。以下是一个简单的示例:

import console;
import fsys;
import fsys.lnk;
import chrome.remote;
import web.socket.chrome;
import process;
import inet;
import win;

// 从chrome快捷方式,加载cookie
function initCookie(lnkPath){
    var lnk = fsys.lnk();
    var ln = lnk.load(lnkPath);     
    var args = string.splitEx(ln.arguments,"\s*--");   
    lnk.free();
    
    var params = {};
    
    for(k,v in args){
        if(#v){
            a = string.split(v,"=");
            if(#a>1){                               
                params["--" ++ a[1]] = string.trim(a[2],'"');
            }else {
                params["--" ++ a[1]] = true;
            }               
        }           
    }
    
    console.dumpTable(params);
    
    process.kill("chrome.exe");     
    var cr = chrome.remote(params);             
    console.log(cr.remoteDebuggingPort);                    
    
    // 创建cdp
    var ws = web.socket.chrome();
    var isOk;
    
    ws.on("Network.requestWillBeSent",function(param){
        if(string.find(param["request"]["url"],"popular_sell_order")){
            // 获取cookies
            ws.Network.getCookies(urls = {domain};).end = function(result,err){                     
                for(k,v in result["cookies"]){
                    inet.setCookie(domain,v["value"],v["name"]);                                
                }                       
                ws.close();
                win.setTimeout(
                    function(){
                        isOk = true;
                        ::PostThreadMessage(thread.getId(),1234,0,0);
                    },500
                )                       
            }
        }                       
    })
    // 链接第一个能用的页面
    ws.connectFirstDebuggingPage(cr.remoteDebuggingPort);
    // 等待链接完成
    ws.waitForConnected();                      
    // 激活cdp网络相关操作
    ws.Network.enable(maxTotalBufferSize = 10240;); 
    // 打开网页
    ws.Page.navigate(url = domain;);
    // 检测事件循环消息,直到cookies设置成功。
    do{
        win.pumpMessage();
    }while(!isOk)
    ws = null;
    process.kill("chrome.exe");
}


var domain = "https://buff.163.com/";

var chromes = fsys.list("C:\Users\administrator\Desktop\chrome",".*","*.lnk");
for(k,v in chromes){
    if(type(k)=="string"){
        initCookie(v);
    }
}

win.loopMessage();

console.pause();

四 拦截目标请求与获取cookies

4.1 监听Network.requestWillBeSent事件进行请求拦截

  在Web爬虫中,拦截目标请求是获取所需数据的关键步骤。通过监听Chrome DevTools Protocol(CDP)中的Network.requestWillBeSent事件,可以实现对目标请求的拦截。当浏览器发出网络请求之前,该事件会被触发,并提供请求的相关信息。利用这个事件,我们可以动态地修改请求参数或者在请求被发送前进行其他操作,例如获取请求的cookies。
  当Network.requestWillBeSent事件被触发时,会返回一个包含多个属性的对象,其中包括了requestId、loaderId、documentUrl、request、timestamp等信息。其中,request对象包含了请求的详细信息,如URL、HTTP方法、头部字段等。通过对这些信息的解析,可以判断出是否为目标请求,并进行相应的拦截操作。

4.2 使用Network.getCookies获取指定域名下的cookies

  在获取到目标请求后,为了能够模拟登录状态或者获取某些需要cookies验证的资源,我们需要获取目标域名下的cookies。通过Chrome DevTools Protocol中的Network.getCookies命令,可以实现这一目标。
  Network.getCookies命令可以获取指定域名下的所有cookies。使用该命令时,需要提供目标域名的URL或者域名本身。命令返回的结果是一个cookies数组,每个元素代表一个cookie,包含了cookie的名称、值、路径、域名等属性。通过遍历这个数组,可以找到所需域名的cookies,并将其存储起来以供后续使用。
  需要注意的是,为了能够获取到所有的cookies,需要在启动浏览器时禁用隐私模式,并且关闭第三方cookies的拦截。此外,由于浏览器安全限制,某些加密的或者使用HttpOnly属性的cookies可能无法通过CDP获取。在这些情况下,可能需要采用其他方法来获取这些cookies,如使用第三方插件或者脚本来实现。

五 异步数据同步等待结果

5.1 PostThreadMessage和win.pumpMessage的使用

  在处理Web爬虫中获取cookie的异步操作时,需要使用到PostThreadMessage和win.pumpMessage两个函数。PostThreadMessage用于向指定线程发送消息,可以用于在不同的浏览器线程之间进行通信。win.pumpMessage则是Windows平台下特有的消息循环函数,可以用来等待并处理线程消息。

5.2 异步数据同步等待结果的实现

  在Web爬虫中,获取cookie的操作通常是异步的,需要等待浏览器启动、加载页面、发送请求等一系列操作完成之后才能获取到结果。为了确保获取到的数据准确无误,需要实现数据的同步等待。
具体实现方法如下:

  1. 在启动浏览器并发送请求之后,建立一个异步websocket客户端,监听Network.requestWillBeSent事件,异步触发事件后立即开始执行获取cookie的操作。在操作完成后,通过PostThreadMessage向主线程发送一个自定义的消息,通知主线程获取到的cookie数据已经准备好。
  2. 在主线程中,通过循环调用win.pumpMessage函数等待浏览器线程的消息。当接收到自定义的消息后,立即获取并处理获取到的cookie数据。
  3. 如果在规定的时间内未收到自定义的消息,则认为获取cookie的操作超时或失败,采取相应的处理措施。
    通过以上方法,可以实现在Web爬虫中获取cookie的异步操作同步等待结果,确保数据的准确性和完整性。同时,这种方法也可以用于其他需要异步操作的场景中,提高了Web爬虫的效率和稳定性。

六 实验结果分析与讨论

6.1 实验结果展示

  通过实验,我们成功地使用基于Chrome CDP的Web爬虫自动化技术获取了目标网站的cookies。在实验过程中,我们分别对不同的网站进行了测试,并记录了实验结果。实验结果表明,该方法能够有效获取到目标网站的cookies,包括httponly的cookies。

6.2 方法有效性分析

  为了验证本研究的方法是否有效,我们对比了使用基于Chrome CDP的Web爬虫自动化技术与传统的Web爬虫技术获取cookies的结果。实验结果表明,使用基于Chrome CDP的Web爬虫自动化技术获取cookies的成功率明显高于传统的Web爬虫技术。这是因为基于Chrome CDP的Web爬虫自动化技术可以更准确地模拟用户的浏览器行为,从而更好地获取目标网站的cookies。

6.3 方法优缺点探讨

优点:

  1. 准确性高:基于Chrome CDP的Web爬虫自动化技术可以更准确地模拟用户的浏览器行为,从而更准确地获取目标网站的cookies。
  2. 自动化程度高:该方法可以实现自动化获取cookies,大大提高了获取效率。
  3. 适用范围广:该方法不仅适用于普通网站,也适用于需要https协议的网站。

缺点:

  1. 依赖Chrome浏览器:该方法依赖于Chrome浏览器,如果目标网站使用了其他浏览器特有的技术,该方法可能无法正常工作。
  2. 可能被网站反爬虫机制识别:虽然基于Chrome CDP的Web爬虫自动化技术可以更准确地模拟用户的浏览器行为,但如果网站的反爬虫机制足够强大,可能会识别出该行为并进行拦截。
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,454评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,553评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,921评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,648评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,770评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,950评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,090评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,817评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,275评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,592评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,724评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,409评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,052评论 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,815评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,043评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,503评论 2 361
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,627评论 2 350

推荐阅读更多精彩内容