Python爬虫极简教程

最开始接触的是c/java,一次偶然的机会接触到Python,用了后只有一个感受。

人生苦短,我用Python

先看一个小成果

用requests, BeautifulSoup4 库爬取的youku视频数据


需要的基础知识:

Html 

CSS 

DOM 模型

HTTP 协议



安装Python

Python下载地址 推荐下载3.5,在安装时记得勾选path,会自动帮你配置环境变量。

运行Python

运行cmd 打开命令界面进入交互模式,如下

Hello ,World!

交互模式下

安装requests

是一个方便链接网络的库

    在命令模式下输入 pip install requests  会自动下载安装

    pip是一个Python自带的安装套件

安装BeautyfulSoup4

解析DOM的库

  在命令模式下输入 pip install BeautifulSoup4会自动下载安装

安装Jupyter 

非常方便Python的Notebook

 在命令模式下输入 pip install jupyter 会自动下载安装

安装完成后再命令模式下输入jupyter notebook

会自动打开浏览器


点击new
点击python3


在光标处出入代码,shift+enter运行


使用requests

         使用 requests.get('url') 来获取网站信息


获取baidu.com的html文档

出现了乱码,因为html中 默认时候utf-8的字符集,python中默认是ISO-8859-1.



encoding可查看编码方式


python 从url 读取 text 文档 将其解析为 ISO-8859-1,所以只要将python的编码设置为utf-8

就可以得到正确编码的 html 文档

res.encoding = 'utf-8'

使用BeautifulSoup4


解析DOM得到文本结点

1.声明 使用 bs4 中的 BeautifulSoup

2.构建一个html

3.使用BeautifulSoup()去解析html,‘html.parser’是一个html解析器,可以不写,python会自动给你一个,但是会出现警告信息

4.打印 soup.text 也就是html中的文本

结合使用爬取资源

1.进入优酷首页,按F12进入开发者模式


2.确定要爬取的资源

点化红圈的小按钮,点击一个视频,右侧会自动定位到链接的<a>标签


3.观察结构


发现每一个视频都放在div 中 而class属性一定是 p-thumb

通过select('.p-thumb') 得到每个装视频的div

在进一步筛选得到 a 标签的 href 属性 和 title 属性

这就像物流包裹,物流公司有一堆包裹,有上海的,广州的等。现在需要找去北京的包裹,那就去一个一个扫描,找到所有北京的包裹装载一个篮子里。

然后从篮子里找去北京A地的包裹,再一次扫描找到了装到新的篮子里。

最终结果


总结

凡事躬行。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,723评论 6 481
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,485评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 152,998评论 0 344
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,323评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,355评论 5 374
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,079评论 1 285
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,389评论 3 400
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,019评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,519评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,971评论 2 325
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,100评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,738评论 4 324
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,293评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,289评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,517评论 1 262
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,547评论 2 354
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,834评论 2 345

推荐阅读更多精彩内容