46. 实现一个简单的网络爬虫

只针对 <a href="www.xxxxx.com">链接进行抓取。

package main

import (
    "fmt"
    "runtime"
    "log"
    "net/http"
    "math/rand"
    "time"
    "io/ioutil"
    "regexp"
    "strings"
    "encoding/xml"
)

var urlchannel = make(chan string, 200)     //channel中存入string类型的href属性,缓冲200
var atagRegExp = regexp.MustCompile(`<a[^>]+[(href)|(HREF)]\s*\t*\n*=\s*\t*\n*[(".+")|('.+')][^>]*>[^<]*</a>`)      //以Must前缀的方法或函数都是必须保证一定能执行成功的,否则将引发一次panic

func main() {
    //go spy("http://www.3qzone.com/")
    go spy("http://www.qidian.com/")
    for url := range urlchannel{
        fmt.Println("routines num = ", runtime.NumGoroutine(), "chan len = ", len(urlchannel))      //通过runtime可以获取当前运行时的一些相关参数等
        go spy(url)
    }
    fmt.Println("a")

}

//noinspection GoTypesCompatibility
func spy(url string) {
    defer func() {
        if r := recover(); r != nil{
            log.Println("[E]", r)
        }
    }()
    req, _ := http.NewRequest("GET", url, nil)

    req.Header.Set("User-Agent", GetRandomUserAgent())
    client := http.DefaultClient
    res, e := client.Do(req)
    if e != nil{
        fmt.Errorf("Get请求%s返回错误:%s", url, e)
        return
    }
    if res.StatusCode == 200{
        body := res.Body
        defer body.Close()
        bodyByte, _ := ioutil.ReadAll(body)
        resStr := string(bodyByte)
        atag := atagRegExp.FindAllString(resStr, -1)
        for _, a := range atag{
            href, _ := GetHref(a)
            if strings.Contains(href, "article/details/"){
                fmt.Println("☆", href)
            }else{
                fmt.Println("□", href)
            }
            urlchannel <- href
        }
    }
}
func GetHref(atag string) (href, content string) {
    inputReader := strings.NewReader(atag)
    decoder := xml.NewDecoder(inputReader)
    for t, err := decoder.Token(); err == nil; t, err = decoder.Token(){
        switch token := t.(type) {
        //处理元素开始(标签)
        case xml.StartElement:
            for _, attr := range token.Attr{
                attrName := attr.Name.Local
                attrValue := attr.Value
                if(strings.EqualFold(attrName, "href") || strings.EqualFold(attrName, "HREF")){
                    href = attrValue
                }
            }
        //处理元素开始(标签)
        case xml.EndElement:
        //元素字符数据(这来是元素的文本)
        case xml.CharData:
            content = string([]byte(token))
        default:
            href = ""
            content = ""
        }
    }
    return href, content
}
var userAgent = [...]string{
    "Mozilla/5.0 (compatible, MSIE 10.0, Windows NT, DigExt)",
    "Mozilla/4.0 (compatible, MSIE 7.0, Windows NT 5.1, 360SE)",
    "Mozilla/4.0 (compatible, MSIE 8.0, Windows NT 6.0, Trident/4.0)",
    "Mozilla/5.0 (compatible, MSIE 9.0, Windows NT 6.1, Trident/5.0,",
    "Opera/9.80 (Windows NT 6.1, U, en) Presto/2.8.131 Version/11.11",
    "Mozilla/4.0 (compatible, MSIE 7.0, Windows NT 5.1, TencentTraveler 4.0)",
    "Mozilla/5.0 (Windows, U, Windows NT 6.1, en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50",
    "Mozilla/5.0 (Macintosh, Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11",
    "Mozilla/5.0 (Macintosh, U, Intel Mac OS X 10_6_8, en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50",
    "Mozilla/5.0 (Linux, U, Android 3.0, en-us, Xoom Build/HRI39) AppleWebKit/534.13 (KHTML, like Gecko) Version/4.0 Safari/534.13",
    "Mozilla/5.0 (iPad, U, CPU OS 4_3_3 like Mac OS X, en-us) AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8J2 Safari/6533.18.5",
    "Mozilla/4.0 (compatible, MSIE 7.0, Windows NT 5.1, Trident/4.0, SE 2.X MetaSr 1.0, SE 2.X MetaSr 1.0, .NET CLR 2.0.50727, SE 2.X MetaSr 1.0)",
    "Mozilla/5.0 (iPhone, U, CPU iPhone OS 4_3_3 like Mac OS X, en-us) AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8J2 Safari/6533.18.5",
    "MQQBrowser/26 Mozilla/5.0 (Linux, U, Android 2.3.7, zh-cn, MB200 Build/GRJ22, CyanogenMod-7) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.1",
}
var r = rand.New(rand.NewSource(time.Now().UnixNano()))
func GetRandomUserAgent() string {
    return userAgent[r.Intn(len(userAgent))]
}

这是一个还算完整的程序。用来取得一个指定的网站的 href 地址集。
下面,我们来一步一步分解它。分布实现它。
因为需要同时下载多个网页,所以用到了 goroutine 和 channel。建立一个通道变量。

var urlchannel = make(chan string, 200)     //多个页面要同时下载,需要使用 goroutine 和 channel

在主函数 main 中,起步从域名开始访问一个网站,并且最终要遍历网站内所有的链接地址。所以需要建立一个函数,以便在函数内完成遍历。这个函数我们取名 spy。于是在主函数中添加 spy 的 goroutine。

go spy("http://www.sohu.com")    

同时建立 spy 函数。

func spy(url string) {

}

在 spy 内要实现,取得网址对应的网页,并且分析网页的的链接。把取得的页面信息或链接信息给入 urlchannel 通道。
在主函数中接收通道信息,利用 runtime 获取当前运行时的一些相关参数信息。

func main(){
...
    for url := range urlchannel {
        fmt.Println("routines num =", runtime.NumGoroutine(), "chan len =", len(urlchannel))
        ...
    }
...

在 spy 函数中,使用 defer 延迟一个匿名函数做错误处理。

    defer func() {
        if r := recover(); r != nil{
            log.Println("[E]", r)
        }
    }()

http get方式发送网络访问请求

req, _ := http.NewRequest("GET", url, nil)

为了模拟不同的客户端访问,建立一个 userAgent 数组,预存各种客户端环境,使用随机取用的方式发送网络请求。

var userAgent = [...]string{
    "Mozilla/5.0 (compatible, MSIE 10.0, Windows NT, DigExt)",
    "Mozilla/4.0 (compatible, MSIE 7.0, Windows NT 5.1, 360SE)",
    "Mozilla/4.0 (compatible, MSIE 8.0, Windows NT 6.0, Trident/4.0)",
    "Mozilla/5.0 (compatible, MSIE 9.0, Windows NT 6.1, Trident/5.0,",
    "Opera/9.80 (Windows NT 6.1, U, en) Presto/2.8.131 Version/11.11",
    "Mozilla/4.0 (compatible, MSIE 7.0, Windows NT 5.1, TencentTraveler 4.0)",
    "Mozilla/5.0 (Windows, U, Windows NT 6.1, en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50",
    "Mozilla/5.0 (Macintosh, Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11",
    "Mozilla/5.0 (Macintosh, U, Intel Mac OS X 10_6_8, en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50",
    "Mozilla/5.0 (Linux, U, Android 3.0, en-us, Xoom Build/HRI39) AppleWebKit/534.13 (KHTML, like Gecko) Version/4.0 Safari/534.13",
    "Mozilla/5.0 (iPad, U, CPU OS 4_3_3 like Mac OS X, en-us) AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8J2 Safari/6533.18.5",
    "Mozilla/4.0 (compatible, MSIE 7.0, Windows NT 5.1, Trident/4.0, SE 2.X MetaSr 1.0, SE 2.X MetaSr 1.0, .NET CLR 2.0.50727, SE 2.X MetaSr 1.0)",
    "Mozilla/5.0 (iPhone, U, CPU iPhone OS 4_3_3 like Mac OS X, en-us) AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8J2 Safari/6533.18.5",
    "MQQBrowser/26 Mozilla/5.0 (Linux, U, Android 2.3.7, zh-cn, MB200 Build/GRJ22, CyanogenMod-7) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.1",
}
var r = rand.New(rand.NewSource(time.Now().UnixNano()))
func GetRandomUserAgent() string {
    return userAgent[r.Intn(len(userAgent))]
}

设置请求信息的 Header 利用 GetRandomUserAgent 函数随机设置客户端。使用 Client.Do 方法提交客户端请求。

req.Header.Set("User-Agent", GetRandomUserAgent())
client := http.DefaultClient
res, e := client.Do(req)

根据 res 返回值,分析获取的内容。并将有用的内容返回给通道。

    if res.StatusCode == 200{
        body := res.Body
        defer body.Close()
        bodyByte, _ := ioutil.ReadAll(body)
        resStr := string(bodyByte)
        atag := atagRegExp.FindAllString(resStr, -1)
        for _, a := range atag{
            href, _ := GetHref(a)
            if strings.Contains(href, "article/details/"){
                fmt.Println("☆", href)
            }else{
                fmt.Println("□", href)
            }
            urlchannel <- href
        }
    }

其中的 resStr 是网页内容,而 GetHref 函数实现了对内容的分析,并返回链接和链接内容。

func GetHref(atag string) (href, content string) {
    inputReader := strings.NewReader(atag)
    decoder := xml.NewDecoder(inputReader)
    for t, err := decoder.Token(); err == nil; t, err = decoder.Token(){
        switch token := t.(type) {
        //处理元素开始(标签)
        case xml.StartElement:
            for _, attr := range token.Attr{
                attrName := attr.Name.Local
                attrValue := attr.Value
                if(strings.EqualFold(attrName, "href") || strings.EqualFold(attrName, "HREF")){
                    href = attrValue
                }
            }
        //处理元素开始(标签)
        case xml.EndElement:
        //元素字符数据(这里是元素的文本)
        case xml.CharData:
            content = string([]byte(token))
        default:
            href = ""
            content = ""
        }
    }
    return href, content
}

如果你不想分析链接,也可以直接使用 resStr 作为通道的赋值。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,482评论 6 481
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,377评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 152,762评论 0 342
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,273评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,289评论 5 373
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,046评论 1 285
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,351评论 3 400
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,988评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,476评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,948评论 2 324
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,064评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,712评论 4 323
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,261评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,264评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,486评论 1 262
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,511评论 2 354
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,802评论 2 345

推荐阅读更多精彩内容

  • 1.TCP报头格式 UDP报头格式 TCP报头格式 UDP报头格式 具体的各部分解释看 TCP报文格式详解 - ...
    杰伦哎呦哎呦阅读 2,434评论 0 5
  • HTTP基本原理 URI、URL、URN(Uninform Resource) URI(Identifier):统...
    GHope阅读 2,065评论 2 26
  • 爬虫概述 1. 目录清单 爬虫简介 通用爬虫和聚焦爬虫 网络请求那些事儿 网络数据抓包分析 2. 章节内容 2.1...
    小皇帝s阅读 683评论 0 1
  • 花样年华匆匆过, 恍似去年春岁雪花耳边落。 人心不古匆匆客, 恰如昨日斜阳孤雁奔南国。
    拾荒野人阅读 148评论 0 0
  • 随着年龄的增大,认识的人越多,做过的事越多,想法就越多。可是矛盾的是,每一个想法都是希望自己最后学会做减法。 不像...
    Jelly妮阅读 406评论 2 2