python爬虫之抓取代理服务器IP

前言

使用爬虫爬取网站的信息常常会遇到的问题是，你的爬虫行为被对方识别了，对方把你的IP屏蔽了，返回不了正常的数据给你。那么这时候就需要使用代理服务器IP来伪装你的请求了。
免费代理服务器网站有：

下面我们以西刺免费代理IP为例子看看是如何获取可用IP的。主要分为以下几个步骤：

请求url，获取网页数据
解析网页数据，找到包含【IP地址】和【端口】信息的节点，解析出这两个数据
验证取得的【IP地址】和【端口】信息是否可用
将验证可用的【IP地址】和【端口】信息保存起来（暂存到列表，或保存到文件，保存到数据库）

1. 请求网页数据

请求网页数据是使用requests库去做网络请求的，填入url，和header头部信息，使用get请求方式去请求，得到response相应后，返回response.text即是响应的文本内容，即网页文本内容。

# 请求url，获取网页数据
def _requestUrl(index):
    src_url = 'http://www.xicidaili.com/nt/'
    url = src_url + str(index)
    if index == 0:
        url = src_url

    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64; rv:43.0) Gecko/20100101 Firefox/43.0'
    }
    response = requests.get(url, headers=headers)
    return response.text

用浏览器打开网址看一下

python获取代理服务器ip

2. 解析网页数据

返回正确的网页数据之后，就可以开始对它进行解析了，这里使用BeautifulSoup库进行网页内容解析。如果是Chrome浏览器，按f12可以查看网页源码，如图

python获取代理服务器ip

找到某个tr行，第1个和第2个td列就是是ip和端口信息，因此我们可以用BeautifulSoup查找所以的tr行，再查找该tr行的第1个和第2个td列即可以获取该页面上所有的ip和端口信息了。

# 解析网页数据，获取ip和端口信息
def parseProxyIpList(content):
    list = []

    soup = BeautifulSoup(content, 'html.parser')
    ips = soup.findAll('tr')
    for x in range(1, len(ips)):
        tds = ips[x].findAll('td')
        ip_temp = 'http://' + tds[1].contents[0] + ':' + tds[2].contents[0]
        print('发现ip：%s' % ip_temp)
        list.append(ip_temp)
    return list

3. 验证IP和端口是否可用

解析到页面上的所有ip和端口信息后，还需要验证它是否是有效的，然后对它们进行过滤，获取有效的ip列表。验证方法就是使用它作为代理地址，去请求网络，看是否能请求成功，如果请求成功，说明是有效的。当然，这里需要加上超时时间，以避免等待时间过长，这里设置超时时间为5秒。

# 过滤有效的ip信息
def filterValidProxyIp(list):
    print('开始过滤可用ip 。。。')
    validList = []
    for ip in list:
        if validateIp(ip):
            print('%s 可用' % ip)
            validList.append(ip)
        else:
            print('%s 无效' % ip)
    return validList

# 验证ip是否有效
def validateIp(proxy):
    proxy_temp = {"http": proxy}
    url = "http://ip.chinaz.com/getip.aspx"
    try:
        response = requests.get(url, proxies=proxy_temp, timeout=5)
        return True
    except Exception as e:
        return False

4. 发起请求，保存可用IP和端口信息

接下来要开始调用以上代码了。这里只爬取第1页数据

# 获取可用的代理ip列表
def getProxyIp():

    allProxys = []

    startPage = 0
    endPage = 1

    for index in range(startPage, endPage):
        print('查找第 %s 页的ip信息' % index)

        # 请求url，获取网页数据
        content = _requestUrl(index)
        # 解析网页数据，获取ip和端口信息
        list = parseProxyIpList(content)
        # 过滤有效的ip信息
        list = filterValidProxyIp(list)
        # 添加到有效列表中
        allProxys.append(list)

        print('第 %s 页的有效ip有以下：' % index)
        print(list)

    print('总共找到有效ip有以下：')
    print(allProxys)

    return allProxys

运行该爬虫程序之后，就可以开始爬取代理服务器信息了。如图

python获取代理服务器ip

总结

通过以上步骤就可以获取有效的代理服务器IP信息了，其他代理服务器IP网站的获取方式和这个大同小异，主要在于解析网页数据那里，需要找到包含IP和端口数据的标签，然后解析获取到。有了代理服务器IP，你就可以爬取更多网站的信息了。

还有个问题是，网站可能会对某个IP检测，如果超过一定请求次数，就会对其进行屏蔽，那这样会导致程序中断，无法获取所有的信息，这如何解决呢？欢迎关注我的微信公众号hesong，了解具体应对方式。

附上源码地址

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,482评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,377评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,762评论 0赞 342
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,273评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,289评论 5赞 373
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,046评论 1赞 285
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,351评论 3赞 400
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,988评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,476评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,948评论 2赞 324
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,064评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,712评论 4赞 323
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,261评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,264评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,486评论 1赞 262
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,511评论 2赞 354
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,802评论 2赞 345

python爬虫之抓取代理服务器IP

前言

1. 请求网页数据

2. 解析网页数据

3. 验证IP和端口是否可用

4. 发起请求，保存可用IP和端口信息

总结

推荐阅读更多精彩内容