爬取饭否上的帖子

通过一个例子一步一步学习 Python 爬虫。

  • img/@src 提取 img 元素中属性名为 src 的对应的 属性值
  • 通过 Chrome 的审查元素得到的 Xpath 路径和网页源代码中的路径有所不同
  • post 请求中的可变字段一般先通过登录前的一次 get 请求获取

比较疑惑的一个地方是, 使用 Chrome 右键菜单中的 检查, 所找到的 tbody 元素在网页源文件中并不存在。把 tbody 去掉也没有影响。于是决定不使用 tbody 标签了。

//tbody/tr/td[@id="main"]/div[@id="content"]/div[@id="stream"]/ol[@class="wa solo"]/li

完整代码如下:

# -*-coding: utf-8 -*-
import requests
from lxml import etree

class FanFou(object):
    def getDataForm(self):
        base_url = "http://fanfou.com"
        token = etree.HTML(requests.get(base_url).text).xpath('//form/p[@class="act"]/input[@name="token"]/@value')[0]
        dataform = {
            'loginname' : 'qiangyuebing@ali.com',
            'loginpass' : 'sanxingnote7',
            'action' : 'login',
            'token' : token
        }
        return dataform
    
    def getInfo(self, data):
        login_url = "http://fanfou.com/login"
        html = requests.post(login_url, data = data).content
        # messages = etree.HTML(html).xpath('//tbody/tr/td[@id="main"]/div[@id="content"]/div[@id="stream"]/ol[@class="wa solo"]/li')
        messages = etree.HTML(html).xpath('//ol[@class="wa solo"]/li')
        info_List = []

        for li in messages:
            info = {}
            info['home_url']     = li.xpath('a/@href')[0]  # 个人主页
            info['title']        = li.xpath('a[@class="author"]/text()')[0] # 姓名
            info['avatar']       = li.xpath('a[@class="avatar"]/img/@src')[0] # 头像地址
            info['content']      = li.xpath('span[@class="content"]')[0].xpath('string(.)') # 发言
            info['message_time'] = li.xpath('span[@class="stamp"]/a[@class="time"]/text()')[0] # 发言时间
            info['app']          = li.xpath('span[@class="stamp"]/span[@class="method"]')[0].xpath('string(.)') # 使用的客户端
            info_List.append(info)
        return info_List
    
    def savetofile(self, infoList):
        base_url = 'http://fanfou.com'
        fout = open("result.txt", "a", encoding="utf-8")
        for info in infoList:
            fout.writelines(u'个人主页: ' + base_url + info['home_url']     + "\n")
            fout.writelines(u'姓名: '     + info['title']        + "\n")
            fout.writelines(u'头像地址: ' + info['avatar']       + "\n")
            fout.writelines(u'发言内容: ' + info['content']      + "\n")
            fout.writelines(u'发言时间: ' + info['message_time'] + "\n")
            fout.writelines(u'客户端: '   + info['app']          + "\n")
            fout.writelines("\n\n")
        fout.close()

if __name__ == '__main__':
    myfan = FanFou()
    dataform = myfan.getDataForm()
    infoDict = myfan.getInfo(dataform)
    myfan.savetofile(infoDict)
    print('download complete')

结果如下:(目前只写入 txt, 随后的文章中会使用数据库)

注意, 例子中的用户名和密码不是真实的, 请使用自己的信息进行替换。

result

饭否中的帖子不是一次性加载完的, 也没有分页, 当点击 更多的时候才会加载更多内容, 所以用到了 Ajax 异步加载, 后面的文章会使用这个功能。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,937评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,503评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,712评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,668评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,677评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,601评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,975评论 3 396
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,637评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,881评论 1 298
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,621评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,710评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,387评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,971评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,947评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,189评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,805评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,449评论 2 342

推荐阅读更多精彩内容

  • 新建工程 该工程的目录结构如下图所示: main.py 文件的内容如下: 这个文件与 scrapy.cfg 存放在...
    焉知非鱼阅读 1,093评论 3 2
  • 问答题47 /72 常见浏览器兼容性问题与解决方案? 参考答案 (1)浏览器兼容问题一:不同浏览器的标签默认的外补...
    _Yfling阅读 13,725评论 1 92
  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,591评论 18 139
  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 171,413评论 25 707
  • export命令 export 命令用于规定模块的对外接口一个模块是一个独立的文件,该文件内部的变量外部无法获取,...
    madisn阅读 216评论 0 0