这个Pandas函数可以自动爬取Web图表

Pandas作为数据科学领域鳌头独占的利器，有着丰富多样的函数，能实现各种意想不到的功能。

作为学习者没办法一次性掌握Pandas所有的方法，需要慢慢积累，多看多练。

这次为大家介绍一个非常实用且神奇的函数-read_html()，它可免去写爬虫的烦恼，自动帮你抓取静态网页中的表格。

简单用法：pandas.read_html(url)

主要参数：

io：接收网址、文件、字符串
header：指定列名所在的行
encoding：The encoding used to decode the web page
attrs：传递一个字典，用其中的属性筛选出特定的表格

只需要传入url，就可以抓取网页中的所有表格，抓取表格后存到列表，列表中的每一个表格都是dataframe格式。

我们先简单抓取天天基金网的基金净值表格，目标url：http://fund.eastmoney.com/fund.html

可以看到上面html里是table表格数据，刚好适合抓取。

import pandas as pd
url = "http://fund.eastmoney.com/fund.html"
data = pd.read_html(url,attrs = {'id': 'oTable'})
# 查看表格数量
tablenum = len(data)
print(tablenum)

输出：1

通过'id': 'oTable'的筛选后，只有一个表格，我们直接爬取到了基金净值表。

data[1]

但这里只爬取了第一页的数据表，因为天天基金网基金净值数据每一页的url是相同的，所以read_html()函数无法获取其他页的表格，这可能运用了ajax动态加载技术来防止爬虫。

附：一般来说，一个爬虫对象的数据一次展现不完全时，就要多次展示，网站的处理办法有两种：
1、下一个页面的url和上一个页面的url不同，即每个页面的url是不同的，一般是是序号累加，处理方法是将所有的html页面下载至本地，从而拿到所有数据；（天天基金网显示不是这种类型）
2、下一个页面的url和上一个页面的url相同，即展示所有数据的url是一样的，这样的话网页上一般会有“下一页”或“输入框”与“确认”按钮，处理方法是将代码中触发“下一页”或“输入框”与“确认”按钮点击事件来实现翻页，从而拿到所有数据。（天天基金网是这种类型）

刚只是简单地使用了read_html()获取web表格的功能，它还有更加复杂的用法，需要了解其参数含义。

详细用法

pandas.read_html( io, match='.+', flavor=None, header=None, index_col=None, skiprows=None, attrs=None, parse_dates=False, thousands=', ', encoding=None, decimal='.', converters=None, na_values=None, keep_default_na=True, displayed_only=True)

详细参数

io： str, path object 或 file-like objectURL，file-like对象或包含HTML的原始字符串。请注意，lxml仅接受http，ftp和文件url协议。如果您的网址以'https'您可以尝试删除's'。

match： str 或 compiled regular expression, 可选参数将返回包含与该正则表达式或字符串匹配的文本的表集。除非HTML非常简单，否则您可能需要在此处传递非空字符串。默认为“。+”(匹配任何非空字符串)。默认值将返回页面上包含的所有表。此值转换为正则表达式，以便Beautiful Soup和lxml之间具有一致的行为。

flavor： str 或 None要使用的解析引擎。 ‘bs4’和‘html5lib’彼此同义，它们都是为了向后兼容。默认值None尝试使用lxml解析，如果失败，它会重新出现bs4+html5lib。

header： int 或 list-like 或 None, 可选参数该行(或MultiIndex)用于创建列标题。

index_col： int 或 list-like 或 None, 可选参数用于创建索引的列(或列列表)。

skiprows： int 或 list-like 或 slice 或 None, 可选参数解析列整数后要跳过的行数。从0开始。如果给出整数序列或切片，将跳过该序列索引的行。请注意，单个元素序列的意思是“跳过第n行”，而整数的意思是“跳过n行”。

attrs： dict 或 None, 可选参数这是属性的词典，您可以传递该属性以用于标识HTML中的表。在传递给lxml或Beautiful Soup之前，不会检查它们的有效性。但是，这些属性必须是有效的HTML表属性才能正常工作。例如，
attrs = {'id': 'table'}
是有效的属性字典，因为‘id’ HTML标记属性是任何HTML标记的有效HTML属性，这个文件。
attrs = {'asdf': 'table'}
不是有效的属性字典，因为‘asdf’即使是有效的XML属性，也不是有效的HTML属性。可以找到有效的HTML 4.01表属性这里。可以找到HTML 5规范的工作草案这里。它包含有关现代Web表属性的最新信息。

parse_dates： bool, 可选参数参考read_csv()更多细节。

thousands： str, 可选参数用来解析成千上万个分隔符。默认为','。

encoding： str 或 None, 可选参数用于解码网页的编码。默认为NoneNone保留先前的编码行为，这取决于基础解析器库(例如，解析器库将尝试使用文档提供的编码)。

decimal： str, 默认为 ‘.’可以识别为小数点的字符(例如，对于欧洲数据，请使用“，”)。

converters： dict, 默认为 None用于在某些列中转换值的函数的字典。键可以是整数或列标签，值是采用一个输入参数，单元格(而非列)内容并返回转换后内容的函数。

na_values： iterable, 默认为 None自定义NA值。

keep_default_na： bool, 默认为 True如果指定了na_values并且keep_default_na为False，则默认的NaN值将被覆盖，否则将附加它们。

displayed_only： bool, 默认为 True是否应解析具有“display:none”的元素。

最后， read_html() 仅支持静态网页解析，你可以通过其他方法获取动态页面加载后response.text 传入 read_html() 再获取表格数据。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,684评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 87,143评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,214评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,788评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,796评论 5赞 368
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,665评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,027评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,679评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 41,346评论 1赞 299
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,664评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,766评论 1赞 331
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,412评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,015评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,974评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,203评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,073评论 2赞 350
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,501评论 2赞 343

这个Pandas函数可以自动爬取Web图表

详细用法

详细参数

推荐阅读更多精彩内容