Go语言使用chromedp爬虫

title: Go语言使用chromedp爬虫
tags: Go，chromedp
author: Clown95

背景

最近朋友让我帮忙爬取一个网站上面的数据，当时看到页面觉得很简单，虽然有25000多页，但是网站没有反爬虫机制，只要多开几个协程就行。

当我简单的爬取第一页之后，发现url没有page参数。好吧，查看翻页的源代码看看,javascript:__doPostBack('anpDataPager','2') 看到这个翻页我有点头疼，是aps写的后台，通过js调dll内部跳转的。

考虑到一般翻页无非是url和ajax。我又去控制台查看ajax,打开控制台选中XHR,结果让我有点懵逼，根本就没有ajax。

我当时就打退堂鼓了，但是又考虑到跟朋友一口一个保证，没办法硬着头皮来吧，那就在url上尝试使用anpDataPager传参看看，还是不行，那就再换curpage依然不行，当我尝试了N遍了常用的curpage参数后，这种方法也以失败告终。

没法比，答应别人的事情当然得尽力完成，就突发奇想使用按键精灵这里脚本语言，模拟手动操作。因为需要查找翻页按钮操作，我只能前台运行。但是有一个很棘手的问题，网站所在服务器速度很慢，大概2-4秒才能显示出数据，而且数据量稍大25675页，我这模拟下去，我得几天不干活。

百度搜索看看有没有其他大佬遇到过类似的情况，你别说还真有，但是大佬使用的Python 模拟提交form __VIEWSTATE __EVENTTARGET __EVENTARGUMENT __EVENTVALIDATION 这四个数据，我用go模仿大佬的方法不知道怎么就是不行。

那就在继续搜索下，看到可以用selenium和chromedp 来模拟浏览器操作，最终选择了chromedp

chromedp 介绍

chromedp包是一种更快，更简单的方法，可以使用无外部依赖关系（即Selenium，PhantomJS等）来驱动支持Go中的Chrome DevTools协议的浏览器。

安装

go get -u github.com/chromedp/chromedp

注意：需要安装chrome浏览器或者chromedrive

使用

官方提供的Demo

https://github.com/chromedp/examples

Api查询地址

https://godoc.org/github.com/chromedp/chromedp

需要爬的内容

<tbody>
                    
                            <tr>
                                <td>1</td>
                                <td>2019/3/22 11:11:31</td>
                                <td>400</td>
                                <td>1,000,000</td>
                                <td>1,000</td>
                                <td>1,000,400</td>
                                <td>aabb123</td>
                                <td> </td>
                                <td>92fox</td>
                                <td>92fox</td>
                                <td>上分</td>
                            </tr>
                        
                        .....
                        
                </tbody>

我直接贴上我爬虫的代码

package main

import (
    "context"
    "errors"
    "github.com/chromedp/cdproto/cdp"
    "github.com/chromedp/cdproto/network"
    "time"
    "log"
    "github.com/chromedp/chromedp"
)

var res string  // 定义全局变量，用来保存爬虫的数据

func main() {
    var err error
        
    // 创建链接
    ctxt, cancel := context.WithCancel(context.Background())
    defer cancel()
 
    //创建chrome.New()创建新的chrome实例
    c, err := chromedp.New(ctxt, chromedp.WithLog(log.Printf)) 
    if err != nil {
        log.Fatal(err)
    }
    x, err := chromedp.New(ctxt, chromedp.WithLog(log.Printf))
    if err != nil {
        log.Fatal(err)
    }
    //执行任务
    err = c.Run(ctxt, visitWeb("http://dl.gaggjz.pw:8086/OpRoot/MemberScoreList.aspx?uid=0&op=0&uname=sdafsadsaf"))
    if err != nil {
        log.Fatal(err)
    }
    // 循环翻页
    for i := 1; i < 25000; i++ {
        //执行
        err = x.Run(ctxt, DoCrawler()) //执行爬虫任务
        WirteTXT(res)// res的内容写入文本 
    }

}

// 任务 主要用来设置cookie ，获取登录账号后的页面
func visitWeb(url string) chromedp.Tasks {

    return chromedp.Tasks{  
        chromedp.ActionFunc(func(ctxt context.Context, h cdp.Executor) error {
            expr := cdp.TimeSinceEpoch(time.Now().Add(180 * 24 * time.Hour))
            success, err := network.SetCookie("ASP.NET_SessionId", "这里是值"). //设置cookie
                WithExpires(&expr).
                WithDomain("dl.gaggjz.pw:8086"). //访问网站主体
                WithHTTPOnly(true).
                Do(ctxt, h)
            if err != nil {
                return err
            }
            if !success {
                return errors.New("could not set cookie")
            }

            return nil
        }),
        chromedp.Navigate(url), //页面跳转
    }
}
// 任务 主要执行翻页功能和或者html
func DoCrawler() chromedp.Tasks {

    //sel =fmt.Sprintf(`javascript:__doPostBack('anpDataPager','%s')`,"2")

    return chromedp.Tasks{
        chromedp.Sleep(1*time.Second), // 等待
        chromedp.WaitVisible(`#form1`, chromedp.ByQuery),等待id=from1页面可见  ByQuery是使用DOM选择器查找
        chromedp.Sleep(1*time.Second), 
        chromedp.Click(`.pagination li:nth-last-child(4) a`, chromedp.ByQuery),//点击翻页
        chromedp.OuterHTML(`tbody`, &res, chromedp.ByQuery), //获取改 tbody标签的html
    }
}


func WirteTXT(txt  string ) {
    f, err := os.OpenFile("1.txt", os.O_RDWR|os.O_CREATE|os.O_APPEND, 0777)
    if err != nil {
        fmt.Println("os Create error: ", err)
        return
    }
    defer f.Close()

    bw := bufio.NewWriter(f)
    bw.WriteString(txt+"\n")
    bw.Flush()
}

总结

通过代码可以看到我创建了chromedp.Tasks 任务，第一个任务主要就是为了设置cookie即模拟登录，第二个任务是最重要的，它主要用来点击下一页按钮和获取指定html内容。因为第一次接触chromedp，所以我刚开始把两个任务放在一个任务里，就造成了第一页和第二页来回跳转。所以突发奇想创建了2个任务。当然我后来才知道，单独执行第二个任务的时候，可以手动输入地址和登录账号，程序也是可以执行的，就是有个缺点，执行一段时间可能cookie失效，需要重新登录。要注意的是chromedp使用的是DOM 原生选择器，我刚开始看到ByQuery 以为可以使用JQuery选择器，一直筛选不到内容。还有一个坑点就是，我爬取的td标签是在tbody内的，直接使用chromedp.Text()获取不到内容，所以退而求次，获取了html，但是我发现goquery 读取文本里面的html也不能获取到td的内容，最后我把tbody替换成table，可以成功的获取到内容。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,456评论 5赞 477
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,370评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,337评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,583评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,596评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,572评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,936评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,595评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,850评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,601评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,685评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,371评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,951评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,934评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,167评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 43,636评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,411评论 2赞 342

Go语言使用chromedp爬虫

背景

chromedp 介绍

安装

使用

总结

推荐阅读更多精彩内容