一、什么是爬虫
爬虫又称网络爬虫(网页蜘蛛、网络机器人):是按照是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。可以用于获取网页数据、获取保存自己想要的数据、抢票、刷数据流量等等
二、使用node.js实现自动爬取图片
1、初始化项目:在对应的项目文件夹下执行npm init来初始化一个package.json文件
2、安装需要用到的依赖包
npm install -save selenium-webdriver; npm install -save download
cheerio的功能是用来操作dom元素的,它可以把request返回来的数据转换成可供dom操作的数据,cheerio的api跟jquery一样,用$来选取对应的dom结点进行相应的dom操作
Selenium是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE,Mozilla Firefox,Safari,Google Chrome,Opera,Edge等。(注:在不同的浏览器上运行要有不同的安装要求)
3、具体代码:
相关 selenium的api:
let driver = await new Builder().forBrowser("MicrosoftEdge").build();//指定浏览器获取driver 对象
driver.get("url"):打开想要的网址 driver.quit():表示关闭浏览器 driver.close() 表示关闭当前窗口
driver.getPageSource().then(function(souce) {console.log(souce);//获取代码
driver.getTitle().then(a=>{console.log(a)});//获取网页标题
driver.getCurrentUrl().then(a=>{console.log(a)});//获取当前url
driver.findElement({css:css}).sendKeys('txt');//输入input
暂时列举这些,更多可进入官网获取The Selenium Browser Automation Project | Selenium
运行前:img文件为空
运行后:
若有不对之处还希望指正为谢!@~@