一 Chrome CDP简介和原理
1.1 Chrome CDP的概念
Chrome DevTools Protocol (CDP) 是一种允许第三方应用程序与浏览器进行通信的协议。它提供了一种与Chrome浏览器交互的方式,包括浏览器的各种功能和性能数据。通过CDP,开发者可以自动化测试、调试和监控浏览器行为,以及实现与浏览器交互的功能。
1.2 Chrome CDP的原理
Chrome CDP基于HTTP和WebSocket协议,通过这些协议与Chrome浏览器进行通信。在CDP中,浏览器和应用程序之间建立了一个双向通信通道,允许两者互相发送请求和接收响应。浏览器端实现了一个CDP服务器,处理来自应用程序的请求,并将结果返回给应用程序。
1.3 Chrome CDP在web爬虫中的应用
在web爬虫中,Chrome CDP可以用于自动化获取网页内容、处理网页元素、模拟用户行为等操作。通过CDP,爬虫可以与浏览器交互,获取更准确的网页数据,同时也可以模拟用户的操作,如点击按钮、填写表单等。此外,使用CDP还可以实现自动化测试和监控浏览器行为等功能,提高web爬虫的开发效率和准确性。
二 浏览器启动和参数配置
2.1 通过快捷方式查找chrome的启动路径和参数
在Windows系统中,我们可以利用快捷方式的特性来查找Chrome的启动路径和参数。首先,找到Chrome的快捷方式,右键点击并选择“属性”,在“目标”一栏中,可以看到完整的启动路径和参数。这些参数对于后续的配置和调试都是非常重要的。
2.2 解析启动参数
Chrome的启动参数多种多样,其中一些参数对于我们的爬虫自动化任务来说是关键的。例如,--user-data-dir参数可以指定一个用户数据目录,让Chrome使用特定的用户配置,这对于我们模拟用户行为至关重要。此外,--incognito参数可以让Chrome以隐身模式启动,这样可以避免浏览器记录历史记录和cookies。
2.3 通过--profile-directory来指定用户
在Chrome中,每个用户的配置信息都保存在一个特定的目录下。通过--profile-directory参数,我们可以指定使用哪个用户的配置。例如,我们可以使用--profile-directory=Default来使用默认用户的配置,或者使用--profile-directory=Profile 1来使用名为“Profile 1”的用户的配置。这样,我们就可以在爬虫任务中为每个用户分别模拟其浏览器行为,提高数据的准确性和可靠性。
三 Chrome浏览器的启动与CDP的使用
3.1 如何通过chrome.remote来依次启动浏览器
为了通过chrome.remote来启动浏览器,首先需要确保已经安装了Chrome浏览器,并且你的爬虫程序有足够的权限来启动和控制它。以下是一个简单的示例:
import console;
import fsys;
import fsys.lnk;
import chrome.remote;
import web.socket.chrome;
import process;
import inet;
import win;
// 从chrome快捷方式,加载cookie
function initCookie(lnkPath){
var lnk = fsys.lnk();
var ln = lnk.load(lnkPath);
var args = string.splitEx(ln.arguments,"\s*--");
lnk.free();
var params = {};
for(k,v in args){
if(#v){
a = string.split(v,"=");
if(#a>1){
params["--" ++ a[1]] = string.trim(a[2],'"');
}else {
params["--" ++ a[1]] = true;
}
}
}
console.dumpTable(params);
process.kill("chrome.exe");
var cr = chrome.remote(params);
console.log(cr.remoteDebuggingPort);
// 创建cdp
var ws = web.socket.chrome();
var isOk;
ws.on("Network.requestWillBeSent",function(param){
if(string.find(param["request"]["url"],"popular_sell_order")){
// 获取cookies
ws.Network.getCookies(urls = {domain};).end = function(result,err){
for(k,v in result["cookies"]){
inet.setCookie(domain,v["value"],v["name"]);
}
ws.close();
win.setTimeout(
function(){
isOk = true;
::PostThreadMessage(thread.getId(),1234,0,0);
},500
)
}
}
})
// 链接第一个能用的页面
ws.connectFirstDebuggingPage(cr.remoteDebuggingPort);
// 等待链接完成
ws.waitForConnected();
// 激活cdp网络相关操作
ws.Network.enable(maxTotalBufferSize = 10240;);
// 打开网页
ws.Page.navigate(url = domain;);
// 检测事件循环消息,直到cookies设置成功。
do{
win.pumpMessage();
}while(!isOk)
ws = null;
process.kill("chrome.exe");
}
var domain = "https://buff.163.com/";
var chromes = fsys.list("C:\Users\administrator\Desktop\chrome",".*","*.lnk");
for(k,v in chromes){
if(type(k)=="string"){
initCookie(v);
}
}
win.loopMessage();
console.pause();
四 拦截目标请求与获取cookies
4.1 监听Network.requestWillBeSent事件进行请求拦截
在Web爬虫中,拦截目标请求是获取所需数据的关键步骤。通过监听Chrome DevTools Protocol(CDP)中的Network.requestWillBeSent事件,可以实现对目标请求的拦截。当浏览器发出网络请求之前,该事件会被触发,并提供请求的相关信息。利用这个事件,我们可以动态地修改请求参数或者在请求被发送前进行其他操作,例如获取请求的cookies。
当Network.requestWillBeSent事件被触发时,会返回一个包含多个属性的对象,其中包括了requestId、loaderId、documentUrl、request、timestamp等信息。其中,request对象包含了请求的详细信息,如URL、HTTP方法、头部字段等。通过对这些信息的解析,可以判断出是否为目标请求,并进行相应的拦截操作。
4.2 使用Network.getCookies获取指定域名下的cookies
在获取到目标请求后,为了能够模拟登录状态或者获取某些需要cookies验证的资源,我们需要获取目标域名下的cookies。通过Chrome DevTools Protocol中的Network.getCookies命令,可以实现这一目标。
Network.getCookies命令可以获取指定域名下的所有cookies。使用该命令时,需要提供目标域名的URL或者域名本身。命令返回的结果是一个cookies数组,每个元素代表一个cookie,包含了cookie的名称、值、路径、域名等属性。通过遍历这个数组,可以找到所需域名的cookies,并将其存储起来以供后续使用。
需要注意的是,为了能够获取到所有的cookies,需要在启动浏览器时禁用隐私模式,并且关闭第三方cookies的拦截。此外,由于浏览器安全限制,某些加密的或者使用HttpOnly属性的cookies可能无法通过CDP获取。在这些情况下,可能需要采用其他方法来获取这些cookies,如使用第三方插件或者脚本来实现。
五 异步数据同步等待结果
5.1 PostThreadMessage和win.pumpMessage的使用
在处理Web爬虫中获取cookie的异步操作时,需要使用到PostThreadMessage和win.pumpMessage两个函数。PostThreadMessage用于向指定线程发送消息,可以用于在不同的浏览器线程之间进行通信。win.pumpMessage则是Windows平台下特有的消息循环函数,可以用来等待并处理线程消息。
5.2 异步数据同步等待结果的实现
在Web爬虫中,获取cookie的操作通常是异步的,需要等待浏览器启动、加载页面、发送请求等一系列操作完成之后才能获取到结果。为了确保获取到的数据准确无误,需要实现数据的同步等待。
具体实现方法如下:
- 在启动浏览器并发送请求之后,建立一个异步websocket客户端,监听Network.requestWillBeSent事件,异步触发事件后立即开始执行获取cookie的操作。在操作完成后,通过PostThreadMessage向主线程发送一个自定义的消息,通知主线程获取到的cookie数据已经准备好。
- 在主线程中,通过循环调用win.pumpMessage函数等待浏览器线程的消息。当接收到自定义的消息后,立即获取并处理获取到的cookie数据。
- 如果在规定的时间内未收到自定义的消息,则认为获取cookie的操作超时或失败,采取相应的处理措施。
通过以上方法,可以实现在Web爬虫中获取cookie的异步操作同步等待结果,确保数据的准确性和完整性。同时,这种方法也可以用于其他需要异步操作的场景中,提高了Web爬虫的效率和稳定性。
六 实验结果分析与讨论
6.1 实验结果展示
通过实验,我们成功地使用基于Chrome CDP的Web爬虫自动化技术获取了目标网站的cookies。在实验过程中,我们分别对不同的网站进行了测试,并记录了实验结果。实验结果表明,该方法能够有效获取到目标网站的cookies,包括httponly的cookies。
6.2 方法有效性分析
为了验证本研究的方法是否有效,我们对比了使用基于Chrome CDP的Web爬虫自动化技术与传统的Web爬虫技术获取cookies的结果。实验结果表明,使用基于Chrome CDP的Web爬虫自动化技术获取cookies的成功率明显高于传统的Web爬虫技术。这是因为基于Chrome CDP的Web爬虫自动化技术可以更准确地模拟用户的浏览器行为,从而更好地获取目标网站的cookies。
6.3 方法优缺点探讨
优点:
- 准确性高:基于Chrome CDP的Web爬虫自动化技术可以更准确地模拟用户的浏览器行为,从而更准确地获取目标网站的cookies。
- 自动化程度高:该方法可以实现自动化获取cookies,大大提高了获取效率。
- 适用范围广:该方法不仅适用于普通网站,也适用于需要https协议的网站。
缺点:
- 依赖Chrome浏览器:该方法依赖于Chrome浏览器,如果目标网站使用了其他浏览器特有的技术,该方法可能无法正常工作。
- 可能被网站反爬虫机制识别:虽然基于Chrome CDP的Web爬虫自动化技术可以更准确地模拟用户的浏览器行为,但如果网站的反爬虫机制足够强大,可能会识别出该行为并进行拦截。