爬虫小技巧(1):约束和常用手段

约束

Python、 Java、 PHP、 C#、 Go 等语言都可以实现爬虫,但是在爬取网站信息时也需要注意一些约束规范。国内外关于网络数据采集相关的法律法规在不断完善中,提倡严格控制网络数据采集的速度,降低被采集网站服务器的负担。

爬取一个网站有三种常用的方法,下面分别举例介绍,所用的是Python2.7,以后更新文章的时候两种版本都可能出现,学习还是需要有所输出的,好记性不如烂笔头,把这些零散的笔记展现出来也算是一个总结和实践了。

注:这里是早期看爬虫书籍时候学习笔记,用的是pyhthon 2.7,升级到3.5版本以后2.X中的urllib2库发生了一些变化,变成了urllib库并被划分为一些子库。

1. 爬取网站地图

def crawl_sitemap(url):
    # 1. 网站地图爬虫
    # 使用示例网站robots.txt文件中发现的网站地图来下载所有网页。为解析网站地图,会使用一个简单的正则表达式,
    # 从<loc>标签中提取出URL(更加robust的方法是CSS selector)
    # download the sitemap file

    sitemap = download(url)
    # extract the sitemap links
    links = re.findall('<loc>(.*?)</loc>', sitemap)
    # download each link
    for link in links:
        html = download(link)
        # scrape html here
        # ...
crawl_sitemap(url_sitemap)

2. 遍历每个网页的数据库ID

设置用户代理:

# 利用网站结构的弱点,更加轻松访问所有内容。
# 下面是一些示例国家的URL,可以看出这些URL只是在结尾处有区别,包括国家名和ID
# 一般情况下web服务器会忽略这个字符串,只使用ID来匹配数据库中的相关记录,网页依然可以加载成功。
# http://example.webscraping.com/view/Afghanistan-1
# http://example.webscraping.com/view/Australia-2
# http://example.webscraping.com/view/Brazil-3

# 下面是使用了该技巧的代码
# itertools.count(start, step)
# 起始参数(start)默认值为0
# 步长(step)默认值为1
# 作用: 返回以start开头的均匀间隔step步长的值
for page in itertools.count(1):
    url = 'http://example.webscraping.com/view/-%d' % page
    html = download(url)
    if html is None:
        break
    else:
        # success -can scrap the result
        pass

# 这段代码对ID进行遍历直到下载出错停止,假设此时已经到达最后一个国家页面。
# 这种实现方式存在一个缺陷,那就是某些记录可能已被删除,数据库ID之间并不是连续的。
# 此时只要访问某个间隔点爬虫就会立即退出。下面改进代码,连续发生多次下载错误后才退出程序
# 但这种爬虫方式不是高效的做法

# maximum number of consecutive download errors allowed
max_errors = 5
# current number of consecutive download errors
num_errors = 0
for page in itertools.count(1):
    url = 'http://example.webscraping.com/view/-%d' % page
    html = download(url)
    if html is None:
        # recieved an error trying to download this webpage
        num_errors += 1
        if num_errors == max_errors:
            # reached maximum number of
            # consecutive errors so exit
            break
        else:
            # success -can scrape the result
            # ..
            num_errors = 0

3. 跟踪网页链接

链接爬虫

# 以上两种技术只要可用就应当使其进行爬取,因为这两种方法最小化了需要下载的网页数量。
# 对于另一些网站,需要让爬虫模拟用户行为,跟踪链接,访问感兴趣的内容


def link_crawler(seed_url, link_regex):
    crawl_queue = [seed_url]
    # keep track which URL's have seen before
    seen = set(crawl_queue)
    while crawl_queue:
        url = crawl_queue.pop()
        html = download(url)
        for link in get_links(html):
            # check if link matches expected regex
            if re.match(link_regex, link):
                # from absolute link
                link = urlparse.urljoin(seed_url, link)
                # check if have already seen this link
                if link not in seen:
                    seen.add(link)
                    crawl_queue.append(link)


def get_links(html):
    # Return a list of links from html
    # a regular expression to extract all links from the webpage
    webpage_regex = re.compile('<a[^]>+href=["\'](.*?)]["\']]', re.IGNORECASE)
    # list of all links from the webpage
    return webpage_regex.findall(html)
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,175评论 5 466
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,674评论 2 376
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,151评论 0 328
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,597评论 1 269
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,505评论 5 359
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 47,969评论 1 275
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,455评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,118评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,227评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,213评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,214评论 1 328
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,928评论 3 316
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,512评论 3 302
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,616评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,848评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,228评论 2 344
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,772评论 2 339

推荐阅读更多精彩内容