Python新浪微博爬虫-1 爬取评论、用户名、用户ID

这篇文章是Python爬虫的第一篇,目标是新浪微博的评论,本篇只实现了抓取评论者的id或个性域名,评论,用户名,详细资料的爬取也许会在以后继续发布。


目录

  1. 准备开发环境
  2. 确定爬取内容
  3. 代码实现
  4. 伪装浏览器,应对反爬虫
  5. 总结

OK,介绍一下开发环境

  • Ubuntu 17.04 还用了一台腾讯的云主机,同样是Unix系统。

  • Chromium 浏览器,抓包很方便。

  • Python 3.5 另外还需要安装两个 Moudle:

    • bs4
    • requests
    • pymysql
  • 数据库使用MySql 5.7

  • IDE使用VIM,关于VIM的配置可以去Google搜索,也可以使用我的一个 vimrc,码字还算比较流畅。https://github.com/matianhe/vimConf


环境准备好之后就要确定爬取的内容

  1. 如图,打开新浪微博官网,最好是移动端网页,页面简单,容易分析,确定爬取评论页的所有用户名和评论。首先要知道网页的结构,HTML基础可以到W3School学习。

  2. 在这里用谷歌浏览器按F12选择Elements块查看网站源代码。可以发现每一个评论内容都是由一个classcidC_[0-9]div包裹。帐号ID就是a标签的href属性的内容,用户名是帐号a标签text内容,评论则是classcttspan标签的内容。

    b.png


写代码

Tips:感觉学框架看官方文档学习最有效率,一定要看!
requests官方文档
bs4官方文档

ubuntu@~:vim comment.py
#!/usr/bin/env python3
# -*- coding: utf-8 -*-

from bs4 import BeautifulSoup
from time import sleep
import queue
import re
import requests
import random  # noqa
import tools  # noqa

如果有第三方模块导入失败可能是没有安装好模块!可以用pip安装,tools是我自己写的一个功能模块,在文件里可以找到。

eg:
    sudo apt install python3-pip
    pip3 install bs4
 
  1. 第一步就是要找到想要爬的网址,然后精简到最短长度。page是目标页,之所以设置成变量是想要循环遍历所有评论页。
url = 'https://weibo.cn/comment/FcnGmhbjL?uid=1537790411&rl=0&page=%d' % (page)
  1. 有了url之后,用requests模块向网页发送请求,它有很多参数,具体可以看官方文档。请求成功之后,他会返回你的网页信息,可以用.content.text得到网页内容。
req = requests.get(url, timeout=5, headers=self.header, cookies=self.cookie)
  1. cookies : 你可以Google一下专业术语,可以把他看作你的帐号密码,有了这一串字符就相当于用帐号密码登录。因为新浪微博查看评论需要登录,所以必须模拟登录的状态,下面会讲到怎么样获取cookie。
  2. header : 请求头,用来伪装成浏览器,相当于告诉请求的网站,我是××浏览器,我上一个网页是什么,我的接受格式,编码,等等。 主要是为了不被发现是爬虫,其实这样做作用不大,还是会被封IP,主要还是放慢速度。
self.cookie ={‘cookies': 'xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx'}
self.header = {'User-Agent': 'Mozilla/5.0 (X11; Linux i686)\
               AppleWebKit/537.36 (KHTML, like Gecko) TGUbuntu\
               Chromium/59.0.3071109 Chrome/59.0.3071.109\
               Safari/537.36',
               'referers': 'https://weibo.cn/comment/FcnGmhbjL?\
               uid=1537790411&rl=0',
               'accept': 'text/html,application/xhtml+xml,application/\
               xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
               'accept-encoding': 'gzip, deflate, br',
               'Accept-Language': 'en-US,en;q=0.8,zh-CN;q=0.6,zh;q=0.4',
               'Connection': 'keep-alive',
               'Host': 'weibo.cn',
               'Upgrade-Insecure-Requests': '1',
               }
  1. 有了网页对象之后就用BeautifulSoup来整理,创建的一个对象,把请求回来的数据文件转换成xml格式,就可以很简单的通过html标签来找数据。
soup = BeautifulSoup(req.content, 'lxml')
  1. 根据一开始分析的内容包裹情况,用find_all()方法来匹配所有classcidC_开头的div标签,每个标签就相当与一组帐号、用户名、评论,也就是一开始我们分析的数据存在的位置。之后再用for循环遍历,把每一组的信息分别提取出来,存入MySql数据库,中文表情可能无法存入,请参考MySql数据库更改默认字符集
tags = soup.find_all('div', class_='c', id=re.compile(r'C_.+'))
for tag in tags:
    self.user_domain = re.sub(r'.*/', '', tag.a['href'])
    self.user_name = tag.a.text
    self.user_comment = tag.find_all('span', 'ctt')[0].text
    tools.add_inc((self.user_domain, self.user_name, self.user_comment))

add_inc()方法在tools模块里,功能就是连接数据库,插入数据。我调试的时候先把数据打印到屏幕上最后才写到数据库,建数据库命令也tools里。

def add_inc(data):
    with pymysql.connect(host='localhost', user='xxx',
                         passwd='xxx', db='xxx',
                         charset='utf8mb4') as cur:
        try:
            sql = ('insert into luhan_inc(user_domain, user_name,\
                user_comment) values (%s, %s, %s)')
            cur.execute(sql, data)
        except Exception as e:
            print(e, 'error')


def c_table_luhan_inc():
    sql = 'create table luhan_inc(user_domain varchar(16),\
        user_name varchar(32), user_comment varchar(512))'
    with pymysql.connect(host='localhost', user='×××××',
                         passwd='×××××', db='××××') as cur:
        try:
            cur.execute(sql)
        except Exception as e:
            print(e)
  1. sleep()每爬一个网页随机休息一下!!!不然会被封ip的!得等20分钟左右解封。况且从道德方面,速度太快会给的网站带来很大的负担。

  • 获取 cookie 和 header

  1. 打开移动端的登录页面进行抓包,如果显示已经登录需要先退出登录。按F12调出开发者模式后,选择Network块,所有请求信息都能在这里找到。如果已经存在很多文件,就点红点旁边的清除,然后把preserve log打开(不会清除记录留下我们要找的文件)。到下图的状态之后,输入帐号密码登录。登录网页
  2. 点击登录之后会出现很多请求文件,我们要找到存有帐号密码的文件。一般为Doc,XHR类型,自己可以多抓几次,熟练之后就会很容易发现。
    带有cookie的文件
  3. 打开m.weibo.cn这个文件,会出现详细信息,把需要的headercookie复制出来就可以用了。
    cookie和header

总结

这篇文章只是粗略的讲了一下过程,还有更换代理IP做多进程没有写,感觉写太多会有点乱,而且速度太快很容易封IP,单机跑速度也还可以,做“小数据”采集够用了,新手学习也还不算难,有问题可以随时评论。完整的代码在下面贴了出来,如果不会用git的话,推荐一个网站去学习廖雪峰的git教程


补充

  1. 密码不安全,创建一个密码模块passwd.py。
  2. 传入固定cookie之后代理IP不起作用,可忽略。

GitHub开源地址:https://github.com/matianhe/crawler

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,839评论 6 482
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,543评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 153,116评论 0 344
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,371评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,384评论 5 374
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,111评论 1 285
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,416评论 3 400
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,053评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,558评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,007评论 2 325
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,117评论 1 334
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,756评论 4 324
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,324评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,315评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,539评论 1 262
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,578评论 2 355
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,877评论 2 345

推荐阅读更多精彩内容