爬取猫眼视频Top100

这是我关于爬虫得第二篇文字,其实应该放在第一篇,我看的三套视频顺序有点问题,本篇应该是算是最基础最简单的。

前言

本篇博客主要记录猫眼视频Too100的榜单的数据,每条榜单的数据由以下6部分组成,这五部分主要是集中一个<dd></dd>标签中,故通过正则匹配可以获取其中的数据

  • 索引
  • 封面
  • 标题
  • 主演
  • 上映时间
  • 评分

分析页面

单条榜单页面结构图
  • 索引是在i标签中
  • 封面是在img标签的链接中
  • 标题在a便签
  • 主演是在p标签
  • 上映时间在p标签
  • 评分是在两个i标签中,拼起来的

具体爬取

这次爬取的代码大致分为4部分,页面获取,单条榜单的获取,页面所有榜单,最后保存到文件

页面获取

有了前面的爬取的基础,这里就很简单, 主要就是通过一个url下载页面,本次依旧采用requests框架进行数据的下载

import requests
from requests.exceptions import RequestException
'''
1.获取单页的数据
'''
def get_one_page(url):
    try:
        response = requests.get(url)
        if response.status_code == 200:
            return response.text
        print("errorcode:%d" % response.status_code)
        return None
    except RequestException:
        print ("单页面获取失败")
        return None

单条榜单的获取

这一节是重头戏,通过正则匹配,将页面中6类有用的信息逐条拆解出来

索引
  • 源码


    索引源码
  • 分析:
    • 根据崔老师教程中提到,要提取的数据所以在标签的正则表达式要是标签闭合,比如索引是在i标签中,故开头<i结尾要用</i>
    • 首先要dd开头,这是区分每一条单独的榜单,然后i标签,最好将css的样式匹配一部分,但是后边的board-index-2经过观察是不一样的,所以仅保留前半部分,然后分组(\d+)获取索引数据,最后i标签结束<dd>.*?<i.*?board-index.*?>(.*?)</i>
图片
  • 源码


    图片源码
  • 注意�:
    • 在分析之前,提出一点注意,当页面元素很多的时候,我们分不清到底哪个才是我们想要的资源的时候,可以通过浏览器的开发工具自带一个选择器(一般类似箭头的标识)去选中元素,这时候就会自定的定位到相应的页面元素
    • 是还要记得和页面的源码对比一下,有时候会不一样,以页面源码为主,选择器当做一个参考
  • 分析:封面主要是在img标签的src属性中,难度不大
    <dd>.*?<i.*?board-index.*?>(.*?)</i>.*?<img.*?data-src="(.*?)"

标题

  • 源码


    标题源码
  • 分析: 标题主要是a标签,如何唯一确定呢,可以通过其父标签p的属性来唯一标识
    <dd>.*?<i.*?board-index.*?>(.*?)</i>.*?<img.*?data-src="(.*?)"
    .*?<p.*?"name".*?<a.*?>(.*?)</a></p>

主演

  • 源码


    主演源码
  • 分析:主要就是存在p标签中,通过star来唯一确定
    <dd>.*?<i.*?board-index.*?>(.*?)</i>.*?<img.*?data-src="(.*?)"
    .*?<p.*?"name".*?<a.*?>(.*?)</a>.*?star".*?>(.*?)</p>

上映时间

  • 源码


    上映时间源码
  • 分析:同上,不再赘述
    <dd>.*?<i.*?board-index.*?>(.*?)</i>.*?<img.*?data-src="(.*?)"
    .*?<p.*?"name".*?<a.*?>(.*?)</a>.*?star".*?>(.*?)</p>
    .*?<p.*?releasetime".*?>(.*?)</p>

评分

  • 源码


    评分源码
  • 分析:评分分两部分,在一个p标签之下,然后两个i标签,通过class加以区分
    <dd>.*?<i.*?board-index.*?>(.*?)</i>.*?<img.*?data-src="(.*?)"
    .*?<p.*?"name".*?<a.*?>(.*?)</a>.*?star".*?>(.*?)</p>
    .*?<p.*?releasetime".*?>(.*?)</p>.*?<p.*?score".*?>
    .*?integer".*?>(.*?)</i>.*?fraction".*?>(.*?)</i></p>.*?</dd>

将数据转换为字典

  • 设计好正则的pattern之后,利用正则的findall方法,将网页所有的表单进行过滤,此方法返回一个list,然后遍历list,将每条表单抽离成一个字典


    解析榜单

将字典存储到本地文件

属于Python基础知识,不过多赘述,请看代码

'''
3,将获取到的数据转换为json格式存储到本地文件
'''
def write_to_file(content):
    with open("result.txt","a") as f:
        # 字典转换为json字符串存储到文件
        f.write(json.dumps(content) + "\n")
        f.close()

'''
4.项目总调度
'''
def main():
    # 主页面url
    url = "http://maoyan.com/board/4"
    # 获取页面
    html = get_one_page(url)
    # 遍历页面进行正则匹配
    for item in  parse_one_page(html):
        # 写入文件
        write_to_file(item)

if __name__ == "__main__":
    main()

数据转码

参看本地的txt文件,发现数据为Unicode编码,不易读取,根据视频中修改方式,报错,有可能是Python版本问题,我使用的是2.7的版本,但是视频中是3.x的版本

  • 原视频是修改方式


    3.x修改方式
  • 报错信息
    open函数在2.7版本,没有这个encoding的参数,所以不能使用,所以删掉


    报错信息
  • 继续报错
    当时想放弃探索,但是又不甘心谷歌了一把,虽然没有明白为什么这修改,但是还是起作用了


    继续报错
  • 修改
    头文件导入

import sys
reload(sys)
sys.setdefaultencoding('utf-8')

总结

像前言中写道的,本文应该放在第一篇,算是爬虫里比较初级的,网页结构也较为简单,考查的知识点也主要是正则的匹配,除去这几点,还有几点自己感觉重要的罗列一下:

  • 正则匹配的时候,如果正则的pattern过长,建议写一段就测试一下看能不能正常匹配,如果等所有的都写完在测试,不容易发现错误点
  • 对于便签内取值的别不<i>(.*?)</i>,这样的一定要注意闭合标签
  • 通过浏览器的开发者工具只能大致看下代码结果,但是细节有时候不可信,前端可能会对页面源代码进行处理,所以匹配的时候要查看源代码进行匹配

源码地址

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,132评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,802评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,566评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,858评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,867评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,695评论 1 282
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,064评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,705评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,915评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,677评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,796评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,432评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,041评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,992评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,223评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,185评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,535评论 2 343

推荐阅读更多精彩内容