Python 爬虫获取某贴吧所有成员用户名

最近想用Python爬虫搞搞百度贴吧的操作，所以我得把原来申请的小号找出来用。有一个小号我忘了具体ID，只记得其中几个字母以及某个加入的贴吧。所以今天就用爬虫来获取C语言贴吧的所有成员。

计划很简单，爬百度贴吧的会员页面，把结果存到MySQL数据库中，等到所有会员都爬完之后。我就可以使用简单的SQL语句查询账号名了。由于C语言贴吧会员有50多万，所以我还需要在合适的时候（例如插入数据库失败）把错误信息打印到日志文件中。由于我是Python新手，所以就不弄什么多线程得了，直接一个脚本用到黑。

看着很简单，实际也很简单。写完了我看了一下，用到的知识只有最基础的SQL操作、BeautifulSoup解析。

首先第一步就是看一下这个吧的信息页有多少页，关键代码如下。踩了两天坑，总算感觉对BeautifulSoup熟悉了一点。代码也很简单，按照class名查找到总页数这个标签，然后用正则表达式匹配到页数数字。这里要说一下，正则表达式的分组真好用。以前偷懒只学了一点正则表达式，发现没啥作用，只有配合分组才能比较精确的查找字符。

    html = request.urlopen(base_url).read().decode(encoding)
    soup = BeautifulSoup(html, 'lxml')
    page_span = soup.find('span', class_='tbui_total_page')
    p = re.compile(r'共(\d+)页')
    result = p.match(page_span.string)
    global total_pages
    total_pages = int(result.group(1))

    logger.info(f'会员共{total_pages}页')

有了总页数，我们就可以遍历页面了，代码如下。写的虽然比较脏，但是能用就行了，大家嫌难看就难看吧。这里做的事情就很简单了，从第一页开始遍历，一直遍历到最后一页。把每一页的用户名字提取出来，然后用_insert_table(connection, name)函数存到MySQL中。

因为我为了省事，直接把百度用户名当做主键了。但是保不齐贴吧有什么bug，导致用户名重复之类的问题，导致插入失败。所以我用try把保存这一块包起来。有异常的话就打印到日志中，方便排查。日志分成两种级别的，INFO级别输出到控制台，ERROR级别输出到文件。

def _find_all_users():
    global connection
    for i in range(start_page, total_pages + 1):
        target_url = f'{base_url}&pn={i}'
        logger.info(f'正在分析第{i}页')
        html = request.urlopen(target_url).read().decode(encoding)
        soup = BeautifulSoup(html, 'lxml')
        outer_div = soup.find('div', class_='forum_info_section member_wrap clearfix bawu-info')
        inner_spans = outer_div.find_all('span', class_='member')
        for index, span in enumerate(inner_spans):
            name_link = span.find('a', class_='user_name')
            name = name_link.string
            logger.info(f'已找到 {name}')

            try:
                _insert_table(connection, name)
            except:
                logger.error(f'第{i}页{index}第个用户 {name} 发生异常')

完整的代码见下。

"""
Python写的百度贴吧工具
"""
import pymysql

host = 'localhost'
db_name = 'tieba'
username = 'root'
password = '12345678'


def _get_connection(host, username, password, db_name):
    return pymysql.connect(host=host,
                           user=username,
                           password=password,
                           charset='utf8mb4',
                           db=db_name)


def _create_table(connection):
    create_table_sql = """
    CREATE TABLE tieba_member(
    username CHAR(255) PRIMARY KEY 
    )
    """
    with connection.cursor() as cursor:
        cursor.execute(create_table_sql)
        connection.commit()


def _insert_table(connection, username):
    insert_table_sql = """
    INSERT INTO tieba_member 
    VALUES(%s)"""

    with connection.cursor() as cursor:
        cursor.execute(insert_table_sql, (username,))
        connection.commit()


import urllib.request as request
from bs4 import BeautifulSoup
import re
import tieba.log_config
import logging

logger = logging.getLogger()

encoding = 'GBK'

base_url = 'http://tieba.baidu.com/bawu2/platform/listMemberInfo?word=c%D3%EF%D1%D4'
# base_url = 'http://tieba.baidu.com/bawu2/platform/listMemberInfo?word=%B9%FD%C1%CB%BC%B4%CA%C7%BF%CD'
start_page = 1
total_pages = None

connection = _get_connection(host, username, password, db_name)


def _get_total_pages():
    html = request.urlopen(base_url).read().decode(encoding)
    soup = BeautifulSoup(html, 'lxml')
    page_span = soup.find('span', class_='tbui_total_page')
    p = re.compile(r'共(\d+)页')
    result = p.match(page_span.string)
    global total_pages
    total_pages = int(result.group(1))

    logger.info(f'会员共{total_pages}页')


def _find_all_users():
    global connection
    for i in range(start_page, total_pages + 1):
        target_url = f'{base_url}&pn={i}'
        logger.info(f'正在分析第{i}页')
        html = request.urlopen(target_url).read().decode(encoding)
        soup = BeautifulSoup(html, 'lxml')
        outer_div = soup.find('div', class_='forum_info_section member_wrap clearfix bawu-info')
        inner_spans = outer_div.find_all('span', class_='member')
        for index, span in enumerate(inner_spans):
            name_link = span.find('a', class_='user_name')
            name = name_link.string
            logger.info(f'已找到 {name}')

            try:
                _insert_table(connection, name)
            except:
                logger.error(f'第{i}页{index}第个用户 {name} 发生异常')


import datetime

if __name__ == '__main__':
    _get_total_pages()
    _find_all_users()

还有另一个文件用来配置日志的。你也可以把这两个文件合在一起，只不过看着可能更乱了。

import logging

# 创建Logger
logger = logging.getLogger()
logger.setLevel(logging.DEBUG)

# 创建Handler

# 终端Handler
consoleHandler = logging.StreamHandler()
consoleHandler.setLevel(logging.DEBUG)

# 文件Handler
fileHandler = logging.FileHandler('log.log', mode='a', encoding='UTF-8')
fileHandler.setLevel(logging.ERROR)

# Formatter
formatter = logging.Formatter('%(asctime)s - %(name)s - %(levelname)s - %(message)s')
consoleHandler.setFormatter(formatter)
fileHandler.setFormatter(formatter)

# 添加到Logger中
logger.addHandler(consoleHandler)
logger.addHandler(fileHandler)

性能测试

当然由于要爬的数据量比较大，我们还要计算一下可能的运行时间。首先不考虑爬虫被百度封了的情况。我把代码稍作修改，设定只爬前100页。

import datetime

if __name__ == '__main__':
    # _get_total_pages()
    total_pages = 100
    time1 = datetime.datetime.today()

    _find_all_users()
    time2 = datetime.datetime.today()
    print(time2)
    print(time1)
    print(time2 - time1)

结果如下，用时将近两分钟。做了简单计算得出结论，要爬完c语言贴吧的52万个会员，需要将近7个小时。所以程序还需要改进。

2017-04-04 23:57:59.197993
2017-04-04 23:56:10.064666
0:01:49.133327

首先先从数据库方面考虑一下。Windows下MySQL默认的数据库引擎是Innodb，特点是支持事务管理、外键、行级锁，但是相应的速度比较慢。我把表重新建为MyISAM类型的。然后重新运行一下测试，看看这次速度会不会有变化。

CREATE TABLE tieba_member (
  username CHAR(255) PRIMARY KEY
)
  ENGINE = MyISAM

这次性能提升的有点快，速度足足提高了76%。可见默认的并不一定是最好的。

2017-04-05 00:15:19.989766
2017-04-05 00:14:53.407476
0:00:26.582290

既然都开始测试了，不妨干脆点。MySQL还有一种引擎是Memory，直接把数据放到内存中。速度肯定会更快！不过测试结果很遗憾，还是26秒。可见数据库这方面的优化到头了。

CREATE TABLE tieba_member (
  username CHAR(255) PRIMARY KEY
)
  ENGINE = MEMORY

不过性能确实提高了很多。经过计算，这次只需要一个半小时即可爬完52万个用户。如果在开多个进程，相信速度还会更快。所以这篇文章就差不多完成了。等明天爬完之后，我把结果更新一下，任务就真正完成了！

不过结果很遗憾，爬虫失败了。为了速度更快我开了4个进程，分别爬1-5000页，5001-10000页，10001-15000页，以及15000-到最后4部分。
但是日志输出显示出现很多重复的用户名，5000页之后的用户名竟然和第一页相同。我百思不得其解，在使用浏览器测试发现，不知道是百度的防爬虫机制还是bug之类的，浏览器只能显示到450多页，在往后就会显示为空页面，如果页数更大，就一直返回第一页的内容。因此依赖于这个页面的贴吧爬虫宣布失败。

虽然失败了，但是还是学习到了不少经验。我测试了一下爬前450页，仅用时44秒。说明爬虫速度倒是还星还行。

import datetime
from multiprocessing import Process

if __name__ == '__main__':

    total_pages = _get_total_pages()

    processes = []
    processes.append(Process(target=_find_all_users, args=(1, 150)))
    processes.append(Process(target=_find_all_users, args=(151, 300)))
    processes.append(Process(target=_find_all_users, args=(301, 450)))

    time1 = datetime.datetime.today()
    for process in processes:
        process.start()

    for process in processes:
        process.join()

    time2 = datetime.datetime.today()
    print(f'开始时间{time1}')
    print(f'结束时间{time2}')
    print(f'用时{time2 - time1}')

最后编辑于：2017.12.06 07:42:55

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,547评论 6赞 477
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,399评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,428评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,599评论 1赞 274
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,612评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,577评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,941评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,603评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,852评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,605评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,693评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,375评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,955评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,936评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,172评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 43,970评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,414评论 2赞 342

Python 爬虫获取某贴吧所有成员用户名

性能测试

推荐阅读更多精彩内容