Chrome多用户实例基于CDP的Web爬虫自动化cookie获取技术研究

一 Chrome CDP简介和原理

1.1 Chrome CDP的概念

Chrome DevTools Protocol (CDP) 是一种允许第三方应用程序与浏览器进行通信的协议。它提供了一种与Chrome浏览器交互的方式，包括浏览器的各种功能和性能数据。通过CDP，开发者可以自动化测试、调试和监控浏览器行为，以及实现与浏览器交互的功能。

1.2 Chrome CDP的原理

Chrome CDP基于HTTP和WebSocket协议，通过这些协议与Chrome浏览器进行通信。在CDP中，浏览器和应用程序之间建立了一个双向通信通道，允许两者互相发送请求和接收响应。浏览器端实现了一个CDP服务器，处理来自应用程序的请求，并将结果返回给应用程序。

1.3 Chrome CDP在web爬虫中的应用

在web爬虫中，Chrome CDP可以用于自动化获取网页内容、处理网页元素、模拟用户行为等操作。通过CDP，爬虫可以与浏览器交互，获取更准确的网页数据，同时也可以模拟用户的操作，如点击按钮、填写表单等。此外，使用CDP还可以实现自动化测试和监控浏览器行为等功能，提高web爬虫的开发效率和准确性。

二浏览器启动和参数配置

2.1 通过快捷方式查找chrome的启动路径和参数

在Windows系统中，我们可以利用快捷方式的特性来查找Chrome的启动路径和参数。首先，找到Chrome的快捷方式，右键点击并选择“属性”，在“目标”一栏中，可以看到完整的启动路径和参数。这些参数对于后续的配置和调试都是非常重要的。

2.2 解析启动参数

Chrome的启动参数多种多样，其中一些参数对于我们的爬虫自动化任务来说是关键的。例如，--user-data-dir参数可以指定一个用户数据目录，让Chrome使用特定的用户配置，这对于我们模拟用户行为至关重要。此外，--incognito参数可以让Chrome以隐身模式启动，这样可以避免浏览器记录历史记录和cookies。

2.3 通过--profile-directory来指定用户

在Chrome中，每个用户的配置信息都保存在一个特定的目录下。通过--profile-directory参数，我们可以指定使用哪个用户的配置。例如，我们可以使用--profile-directory=Default来使用默认用户的配置，或者使用--profile-directory=Profile 1来使用名为“Profile 1”的用户的配置。这样，我们就可以在爬虫任务中为每个用户分别模拟其浏览器行为，提高数据的准确性和可靠性。

三 Chrome浏览器的启动与CDP的使用

3.1 如何通过chrome.remote来依次启动浏览器

为了通过chrome.remote来启动浏览器，首先需要确保已经安装了Chrome浏览器，并且你的爬虫程序有足够的权限来启动和控制它。以下是一个简单的示例：

import console;
import fsys;
import fsys.lnk;
import chrome.remote;
import web.socket.chrome;
import process;
import inet;
import win;

// 从chrome快捷方式，加载cookie
function initCookie(lnkPath){
    var lnk = fsys.lnk();
    var ln = lnk.load(lnkPath);     
    var args = string.splitEx(ln.arguments,"\s*--");   
    lnk.free();
    
    var params = {};
    
    for(k,v in args){
        if(#v){
            a = string.split(v,"=");
            if(#a>1){                               
                params["--" ++ a[1]] = string.trim(a[2],'"');
            }else {
                params["--" ++ a[1]] = true;
            }               
        }           
    }
    
    console.dumpTable(params);
    
    process.kill("chrome.exe");     
    var cr = chrome.remote(params);             
    console.log(cr.remoteDebuggingPort);                    
    
    // 创建cdp
    var ws = web.socket.chrome();
    var isOk;
    
    ws.on("Network.requestWillBeSent",function(param){
        if(string.find(param["request"]["url"],"popular_sell_order")){
            // 获取cookies
            ws.Network.getCookies(urls = {domain};).end = function(result,err){                     
                for(k,v in result["cookies"]){
                    inet.setCookie(domain,v["value"],v["name"]);                                
                }                       
                ws.close();
                win.setTimeout(
                    function(){
                        isOk = true;
                        ::PostThreadMessage(thread.getId(),1234,0,0);
                    },500
                )                       
            }
        }                       
    })
    // 链接第一个能用的页面
    ws.connectFirstDebuggingPage(cr.remoteDebuggingPort);
    // 等待链接完成
    ws.waitForConnected();                      
    // 激活cdp网络相关操作
    ws.Network.enable(maxTotalBufferSize = 10240;); 
    // 打开网页
    ws.Page.navigate(url = domain;);
    // 检测事件循环消息，直到cookies设置成功。
    do{
        win.pumpMessage();
    }while(!isOk)
    ws = null;
    process.kill("chrome.exe");
}


var domain = "https://buff.163.com/";

var chromes = fsys.list("C:\Users\administrator\Desktop\chrome",".*","*.lnk");
for(k,v in chromes){
    if(type(k)=="string"){
        initCookie(v);
    }
}

win.loopMessage();

console.pause();

四拦截目标请求与获取cookies

4.1 监听Network.requestWillBeSent事件进行请求拦截

在Web爬虫中，拦截目标请求是获取所需数据的关键步骤。通过监听Chrome DevTools Protocol（CDP）中的Network.requestWillBeSent事件，可以实现对目标请求的拦截。当浏览器发出网络请求之前，该事件会被触发，并提供请求的相关信息。利用这个事件，我们可以动态地修改请求参数或者在请求被发送前进行其他操作，例如获取请求的cookies。
当Network.requestWillBeSent事件被触发时，会返回一个包含多个属性的对象，其中包括了requestId、loaderId、documentUrl、request、timestamp等信息。其中，request对象包含了请求的详细信息，如URL、HTTP方法、头部字段等。通过对这些信息的解析，可以判断出是否为目标请求，并进行相应的拦截操作。

4.2 使用Network.getCookies获取指定域名下的cookies

在获取到目标请求后，为了能够模拟登录状态或者获取某些需要cookies验证的资源，我们需要获取目标域名下的cookies。通过Chrome DevTools Protocol中的Network.getCookies命令，可以实现这一目标。
Network.getCookies命令可以获取指定域名下的所有cookies。使用该命令时，需要提供目标域名的URL或者域名本身。命令返回的结果是一个cookies数组，每个元素代表一个cookie，包含了cookie的名称、值、路径、域名等属性。通过遍历这个数组，可以找到所需域名的cookies，并将其存储起来以供后续使用。
需要注意的是，为了能够获取到所有的cookies，需要在启动浏览器时禁用隐私模式，并且关闭第三方cookies的拦截。此外，由于浏览器安全限制，某些加密的或者使用HttpOnly属性的cookies可能无法通过CDP获取。在这些情况下，可能需要采用其他方法来获取这些cookies，如使用第三方插件或者脚本来实现。

五异步数据同步等待结果

5.1 PostThreadMessage和win.pumpMessage的使用

在处理Web爬虫中获取cookie的异步操作时，需要使用到PostThreadMessage和win.pumpMessage两个函数。PostThreadMessage用于向指定线程发送消息，可以用于在不同的浏览器线程之间进行通信。win.pumpMessage则是Windows平台下特有的消息循环函数，可以用来等待并处理线程消息。

5.2 异步数据同步等待结果的实现

在Web爬虫中，获取cookie的操作通常是异步的，需要等待浏览器启动、加载页面、发送请求等一系列操作完成之后才能获取到结果。为了确保获取到的数据准确无误，需要实现数据的同步等待。
具体实现方法如下：

在启动浏览器并发送请求之后，建立一个异步websocket客户端，监听Network.requestWillBeSent事件，异步触发事件后立即开始执行获取cookie的操作。在操作完成后，通过PostThreadMessage向主线程发送一个自定义的消息，通知主线程获取到的cookie数据已经准备好。

在主线程中，通过循环调用win.pumpMessage函数等待浏览器线程的消息。当接收到自定义的消息后，立即获取并处理获取到的cookie数据。

如果在规定的时间内未收到自定义的消息，则认为获取cookie的操作超时或失败，采取相应的处理措施。
通过以上方法，可以实现在Web爬虫中获取cookie的异步操作同步等待结果，确保数据的准确性和完整性。同时，这种方法也可以用于其他需要异步操作的场景中，提高了Web爬虫的效率和稳定性。

六实验结果分析与讨论

6.1 实验结果展示

通过实验，我们成功地使用基于Chrome CDP的Web爬虫自动化技术获取了目标网站的cookies。在实验过程中，我们分别对不同的网站进行了测试，并记录了实验结果。实验结果表明，该方法能够有效获取到目标网站的cookies，包括httponly的cookies。

6.2 方法有效性分析

为了验证本研究的方法是否有效，我们对比了使用基于Chrome CDP的Web爬虫自动化技术与传统的Web爬虫技术获取cookies的结果。实验结果表明，使用基于Chrome CDP的Web爬虫自动化技术获取cookies的成功率明显高于传统的Web爬虫技术。这是因为基于Chrome CDP的Web爬虫自动化技术可以更准确地模拟用户的浏览器行为，从而更好地获取目标网站的cookies。

6.3 方法优缺点探讨

优点：

准确性高：基于Chrome CDP的Web爬虫自动化技术可以更准确地模拟用户的浏览器行为，从而更准确地获取目标网站的cookies。

自动化程度高：该方法可以实现自动化获取cookies，大大提高了获取效率。

适用范围广：该方法不仅适用于普通网站，也适用于需要https协议的网站。

缺点：

依赖Chrome浏览器：该方法依赖于Chrome浏览器，如果目标网站使用了其他浏览器特有的技术，该方法可能无法正常工作。

可能被网站反爬虫机制识别：虽然基于Chrome CDP的Web爬虫自动化技术可以更准确地模拟用户的浏览器行为，但如果网站的反爬虫机制足够强大，可能会识别出该行为并进行拦截。

最后编辑于：2024.01.25 23:52:50

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,293评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,604评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,958评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,729评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,719评论 5赞 366
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,630评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,000评论 3赞 397
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,665评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,909评论 1赞 299
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,646评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,726评论 1赞 330
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,400评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,986评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,959评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,197评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 44,996评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,481评论 2赞 342