爬取猫眼视频Top100

这是我关于爬虫得第二篇文字，其实应该放在第一篇，我看的三套视频顺序有点问题，本篇应该是算是最基础最简单的。

前言

本篇博客主要记录猫眼视频Too100的榜单的数据，每条榜单的数据由以下6部分组成，这五部分主要是集中一个<dd></dd>标签中，故通过正则匹配可以获取其中的数据

索引
封面
标题
主演
上映时间
评分

分析页面

单条榜单页面结构图

索引是在i标签中
封面是在img标签的链接中
标题在a便签
主演是在p标签
上映时间在p标签
评分是在两个i标签中，拼起来的

具体爬取

这次爬取的代码大致分为4部分，页面获取，单条榜单的获取，页面所有榜单，最后保存到文件

页面获取

有了前面的爬取的基础，这里就很简单，主要就是通过一个url下载页面，本次依旧采用requests框架进行数据的下载

import requests
from requests.exceptions import RequestException
'''
1.获取单页的数据
'''
def get_one_page(url):
    try:
        response = requests.get(url)
        if response.status_code == 200:
            return response.text
        print("errorcode:%d" % response.status_code)
        return None
    except RequestException:
        print ("单页面获取失败")
        return None

单条榜单的获取

这一节是重头戏，通过正则匹配，将页面中6类有用的信息逐条拆解出来

索引

源码

索引源码
分析：
- 根据崔老师教程中提到，要提取的数据所以在标签的正则表达式要是标签闭合，比如索引是在i标签中，故开头<i结尾要用
- 首先要dd开头，这是区分每一条单独的榜单，然后i标签，最好将css的样式匹配一部分，但是后边的board-index-2经过观察是不一样的，所以仅保留前半部分，然后分组(\d+)获取索引数据，最后i标签结束<dd>.*?<i.*?board-index.*?>(.*?)

图片

源码

图片源码
注意�：
- 在分析之前，提出一点注意，当页面元素很多的时候，我们分不清到底哪个才是我们想要的资源的时候，可以通过浏览器的开发工具自带一个选择器（一般类似箭头的标识）去选中元素，这时候就会自定的定位到相应的页面元素
- 是还要记得和页面的源码对比一下，有时候会不一样，以页面源码为主，选择器当做一个参考
分析：封面主要是在img标签的src属性中，难度不大
<dd>.*?<i.*?board-index.*?>(.*?).*?<img.*?data-src="(.*?)"

标题

源码

标题源码
分析：标题主要是a标签，如何唯一确定呢，可以通过其父标签p的属性来唯一标识
<dd>.*?<i.*?board-index.*?>(.*?).*?<img.*?data-src="(.*?)"
.*?<p.*?"name".*?<a.*?>(.*?)</a>

主演

源码

主演源码
分析：主要就是存在p标签中，通过star来唯一确定
<dd>.*?<i.*?board-index.*?>(.*?).*?<img.*?data-src="(.*?)"
.*?<p.*?"name".*?<a.*?>(.*?)</a>.*?star".*?>(.*?)

上映时间

源码

上映时间源码
分析：同上，不再赘述
<dd>.*?<i.*?board-index.*?>(.*?).*?<img.*?data-src="(.*?)"
.*?<p.*?"name".*?<a.*?>(.*?)</a>.*?star".*?>(.*?)
.*?<p.*?releasetime".*?>(.*?)

评分

源码

评分源码
分析：评分分两部分，在一个p标签之下，然后两个i标签，通过class加以区分
<dd>.*?<i.*?board-index.*?>(.*?).*?<img.*?data-src="(.*?)"
.*?<p.*?"name".*?<a.*?>(.*?)</a>.*?star".*?>(.*?)
.*?<p.*?releasetime".*?>(.*?).*?<p.*?score".*?>
.*?integer".*?>(.*?).*?fraction".*?>(.*?).*?</dd>

将数据转换为字典

设计好正则的pattern之后，利用正则的findall方法，将网页所有的表单进行过滤，此方法返回一个list，然后遍历list，将每条表单抽离成一个字典

解析榜单

将字典存储到本地文件

属于Python基础知识，不过多赘述，请看代码

'''
3，将获取到的数据转换为json格式存储到本地文件
'''
def write_to_file(content):
    with open("result.txt","a") as f:
        # 字典转换为json字符串存储到文件
        f.write(json.dumps(content) + "\n")
        f.close()

'''
4.项目总调度
'''
def main():
    # 主页面url
    url = "http://maoyan.com/board/4"
    # 获取页面
    html = get_one_page(url)
    # 遍历页面进行正则匹配
    for item in  parse_one_page(html):
        # 写入文件
        write_to_file(item)

if __name__ == "__main__":
    main()

数据转码

参看本地的txt文件，发现数据为Unicode编码，不易读取，根据视频中修改方式，报错，有可能是Python版本问题，我使用的是2.7的版本，但是视频中是3.x的版本

原视频是修改方式

3.x修改方式
报错信息
open函数在2.7版本，没有这个encoding的参数，所以不能使用，所以删掉

报错信息
继续报错
当时想放弃探索，但是又不甘心谷歌了一把，虽然没有明白为什么这修改，但是还是起作用了

继续报错
修改
头文件导入

import sys
reload(sys)
sys.setdefaultencoding('utf-8')

总结

像前言中写道的，本文应该放在第一篇，算是爬虫里比较初级的，网页结构也较为简单，考查的知识点也主要是正则的匹配，除去这几点，还有几点自己感觉重要的罗列一下：

正则匹配的时候，如果正则的pattern过长，建议写一段就测试一下看能不能正常匹配，如果等所有的都写完在测试，不容易发现错误点
对于便签内取值的别不(.*?),这样的一定要注意闭合标签
通过浏览器的开发者工具只能大致看下代码结果，但是细节有时候不可信，前端可能会对页面源代码进行处理，所以匹配的时候要查看源代码进行匹配

源码地址

最后编辑于：2017.12.06 03:47:20

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 205,132评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 87,802评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,566评论 0赞 338
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,858评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,867评论 5赞 368
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,695评论 1赞 282
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,064评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,705评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 42,915评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,677评论 2赞 323
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,796评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,432评论 4赞 322
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,041评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,992评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,223评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,185评论 2赞 352
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,535评论 2赞 343

爬取猫眼视频Top100

前言

分析页面

具体爬取

页面获取

单条榜单的获取

索引

图片

标题

主演

上映时间

评分

将数据转换为字典

将字典存储到本地文件

数据转码

总结

推荐阅读更多精彩内容