笔记|数据分析之pandas基础----matplotlib基础功能(二)

image

使用pandas和seaborn绘图

Series和DataFrame自带的生成图表方法:

import pandas as pd
s = pd.Series(np.random.randn(10).cumsum(), index=np.arange(0, 100, 10))
s.plot()
case-16.png

使用pandas做一张堆积柱状图

展示每天各种聚会规模的数据点的百分比

tips = pd.read_csv('examples/tips.csv')
party_counts = pd.crosstab(tips['day'], tips['size'])
print(party_counts)

size  1   2   3   4  5  6
day                      
Fri   1  16   1   1  0  0
Sat   2  53  18  13  1  0
Sun   0  39  15  18  3  1
Thur  1  48   4   5  1  3

party_counts = party_counts.loc[:, 2:5]
print(party_counts)

size   2   3   4  5
day                
Fri   16   1   1  0
Sat   53  18  13  1
Sun   39  15  18  3
Thur  48   4   5  1

为了方便以百分比的形式展现数据,需要进行规格化使各行的和为1,然后生成图表

party_pcts = party_counts.div(party_counts.sum(1).astype(float), axis=0)
print(party_pcts)

size         2         3         4         5
day                                         
Fri   0.888889  0.055556  0.055556  0.000000
Sat   0.623529  0.211765  0.152941  0.011765
Sun   0.520000  0.200000  0.240000  0.040000
Thur  0.827586  0.068966  0.086207  0.017241

生成图表

party_pcts.plot.bar()
case-17.png

从图表中可以看出,在周日的聚会规模最大。

seaborn这个库非常适合进行合计数据

接下来使用Seaborn来查看每天给的小费比例,Seaborn其实是在matplotlib的基础上进行了更高级的API封装,但应强调的是,应该把Seaborn视为matplotlib的补充,而不是替代物。

import seaborn as sns
tips['tip_pct'] = tips['tip'] / tips['total_bill'] - tips['tip']   # 新增了一项小费占比
tips.head()

case-18.png
sns.barplot(x='tip_pct', y='day', data=tips, orient='h')  #orient 表示柱状图的方向,h表示横向
case-19.png

因为seaborn绘制函数需要使用到DataFrame参数。其他的参数都是关于列的名字

修改柱状图颜色

fig8 = plt.figure()
sns.barplot(x='tip_pct',y='day',hue='time',data=tips,orient='h')

把关键词改为time后,seaborn自动修改了图表的配色。

case-20.png

图形背景和网格线可以手动调整:

sns.set_style("darkgrid")
case-21.png

直方图和密度图

直方图

可以对值的频率进行离散化显示的柱状图。

个人理解:通过直方图和密度图能很直观的分析出一堆数据中那部分的数据最集中。比如厂商做衣服,标准身材的人肯定占大多数,而太瘦小或太胖这种身材都占小部分。这样分析就能知道该大量制作多少尺寸的衣服了。

通过在Series中使用plot.hist方法来实现:

fig9 = plt.figure()
tips['tip_pct'].plot.hist(bins=50)
小费百分比直方图.png
密度图

密度图是通过计算“可能会产生观测数据的连续概率分布的估计”而产生的图表。
使用plot.kde和标准混合正态分布估计即可生成一张密度图

fig10 = plt.figure()
tips['tip_pct'].plot.density()
case-23.png

还有一种更方便的方法能一起绘制直方图和密度图

fig11 = plt.figure()

comp1 = np.random.normal(0, 1, size=200)  # 一组标准差为1,以0为中心的正态分布数组
comp2 = np.random.normal(10, 2, size=200) # 一组标准差为2,以10为中心的正态分布数组

values = pd.Series(np.concatenate([comp1, comp2]))  # 对两组数据进行合并
sns.distplot(values, bins=100, color='k')
# 把数据分割成了100个区间(割的越细分析越精确)
标准直方图.png

散布图或点图

点图或散布图是观察两个一维数据序列之间的关系的有效手段。

macro = pd.read_csv('examples/macrodata.csv')
data = macro[['cpi','m1','tbilrate','unemp']]
trans_data = np.log(data).diff().dropna()
# 这里做了三个步骤
# 1.对data中的数据做了对数处理,来获取以自然对数e为底```data```的对数 
# 2. 对第一步的结果做了离散差值计算
# 3. 去除NaN
print(trans_data[-5:])
          cpi        m1  tbilrate     unemp
198 -0.007904  0.045361 -0.396881  0.105361
199 -0.021979  0.066753 -2.277267  0.139762
200  0.002340  0.010286  0.606136  0.160343
201  0.008419  0.037461 -0.200671  0.127339
202  0.008894  0.012202 -0.405465  0.042560
回归/散布图.png

Seaborn可以一次性两两组合多个变量做出多个对比图,做出一个N * N的矩阵

sns.pairplot(trans_data,diag_kind='kde',plot_kws={'alpha':0.2})
散布图矩阵.png

分面网格和类型数据

sns.factorplot(x='day',y='tip_pct',hue='time',col='smoker',kind='bar',data=tips[tips.tip_pct < 1])
按照天/时间/吸烟者的消费计算百分比.png

除了可以用不同的颜色按时间分组,也可以通过给每个时间值添加一行来扩展分面网格:

sns.factorplot(x='day',y='tip_pct',row='time',col='smoker',kind='bar',data=tips[tips.tip_pct < 1])
按天的tip_pct,通过time/smoker分面.png
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,088评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,715评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,361评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,099评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 60,987评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,063评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,486评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,175评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,440评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,518评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,305评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,190评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,550评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,880评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,152评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,451评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,637评论 2 335

推荐阅读更多精彩内容