pandas入门（4）：层次化索引

hierarchical indexing是pandas的一项重要功能，它使你能在一个轴上拥有多个（两个以上）索引级别。它能让你以低维度形式处理高维度数据。

例：创建一个Series，并用一个由列表或数组组成的列表作为索引：

In [80]: data = Series(np.random.randn(10), index=[['a','a','a','b','b','b','c','c','d','d’], [1,2,3,1,2,3,1,2,2,3]])

In [81]: data
Out[81]: 
a  1    0.659838
   2   -0.530732
   3    0.862788
b  1   -0.678278
   2    1.189240
   3    0.167645
c  1    1.740861
   2    0.144723
d  2    1.153850
   3    0.686639
dtype: float64

这就是带有MultiIndex索引的Series的格式化输出形式；索引之间的“间隔”表示“直接使用上面的标签”：

In [82]: data.index
Out[82]: 
MultiIndex(levels=[['a', 'b', 'c', 'd'], [1, 2, 3]],
           labels=[[0, 0, 0, 1, 1, 1, 2, 2, 3, 3], [0, 1, 2, 0, 1, 2, 0, 1, 1, 2]])

对于一个层次化索引对象选取子集：

In [83]: data['b']
Out[83]: 
1   -0.678278
2    1.189240
3    0.167645
dtype: float64

In [84]: data['b':'d']
Out[84]: 
b  1   -0.678278
   2    1.189240
   3    0.167645
c  1    1.740861
   2    0.144723
d  2    1.153850
   3    0.686639
dtype: float64

有时甚至还可以在“内层”中进行选取：

In [85]: data[:,2]
Out[85]: 
a   -0.530732
b    1.189240
c    0.144723
d    1.153850
dtype: float64

层次化索引在数据重塑和基于分组的操作（如透视表生成）中扮演着重要的角色。

比如说，这段数据可以通过unstack方法被重新安排到一个DataFrame中：

In [86]: data.unstack()
Out[86]: 
          1         2         3
a  0.659838 -0.530732  0.862788
b -0.678278  1.189240  0.167645
c  1.740861  0.144723       NaN
d       NaN  1.153850  0.686639

unstack的逆运算是stack：

对于DataFrame，每条轴都可以有分层索引：

In [88]: frame = DataFrame(np.arange(12).reshape((4,3)), index=[['a','a','b','b'], [1,2,1,2]], columns=[['Ohio','Ohio','Colorado'],['Green','Red','Green']])

In [89]: frame
Out[89]: 
     Ohio     Colorado
    Green Red    Green
a 1     0   1        2
  2     3   4        5
b 1     6   7        8
  2     9  10       11

各层都可以有名字（可以是字符串，也可以是别的Python对象）。如果指定了名称，它们就会显示在控制台输出中（注意区别索引名称跟轴标签！）：

In [90]: frame.index.names = ['key1', 'key2']
In [93]: frame.columns.names = ['state', 'color']

In [94]: frame
Out[94]: 
state      Ohio     Colorado
color     Green Red    Green
key1 key2                   
a    1        0   1        2
     2        3   4        5
b    1        6   7        8
     2        9  10       11

由于有了分部的列索引，因此可以轻松选取列分组：

In [95]: frame['Ohio']
Out[95]: 
color      Green  Red
key1 key2            
a    1         0    1
     2         3    4
b    1         6    7
     2         9   10

可以单独创建MultiIndex然后复用：

columns = pd.MultiIndex.from_arrays([['Ohio','Ohio','Colorado'],['Green','Red','Green'] ...: ], names=['state','color'])

重新分级排序：

重新调整某条轴上各级别的顺序，或根据指定级别上的值对数据进行排序。

swaplevel接受两个编号或名称，并返回一个互换了级别的新对象：

In [102]: frame.swaplevel('key1', 'key2')
Out[102]: 
state      Ohio     Colorado
color     Green Red    Green
key2 key1                   
1    a        0   1        2
2    a        3   4        5
1    b        6   7        8
2    b        9  10       11

sort_index则根据单个级别中的值对数据进行排序（稳定的）：

In [103]: frame.sortlevel(1)
/Users/suhang/anaconda3/bin/ipython:1: FutureWarning: sortlevel is deprecated, use sort_index(level= ...)
  #!/Users/suhang/anaconda3/bin/python
Out[103]: 
state      Ohio     Colorado
color     Green Red    Green
key1 key2                   
a    1        0   1        2
b    1        6   7        8
a    2        3   4        5
b    2        9  10       11

In [104]: frame.swaplevel(0,1).sort_index(0)
Out[104]: 
state      Ohio     Colorado
color     Green Red    Green
key2 key1                   
1    a        0   1        2
     b        6   7        8
2    a        3   4        5
     b        9  10       11

根据级别汇总统计：

许多对DataFrame和Series的描述和汇总统计都有一个level选项，它用于指定在某条轴上求和的级别。

In [105]: frame
Out[105]: 
state      Ohio     Colorado
color     Green Red    Green
key1 key2                   
a    1        0   1        2
     2        3   4        5
b    1        6   7        8
     2        9  10       11

根据行或列上的级别进行求和：

In [107]: frame.sum(level='key2')
Out[107]: 
state  Ohio     Colorado
color Green Red    Green
key2                    
1         6   8       10
2        12  14       16

In [110]: frame.sum(level='color', axis=1)
Out[110]: 
color      Green  Red
key1 key2            
a    1         2    1
     2         8    4
b    1        14    7
     2        20   10

其实就是利用了pandas的groupby功能，稍后讲。

使用`DataFrame`的列：

人们经常想将DataFrame的一个或多个列当做行索引来用，或者将行索引变成DataFrame的列：

In [111]: frame = DataFrame({'a':range(7), 'b':range(7,0,-1), 'c':['one', 'one', 'one', 'two', 'two', 'two', 'two'], 'd':[0,1,2,0,1,2,3]})

In [112]: frame
Out[112]: 
   a  b    c  d
0  0  7  one  0
1  1  6  one  1
2  2  5  one  2
3  3  4  two  0
4  4  3  two  1
5  5  2  two  2
6  6  1  two  3

set_index函数会将其一个或多个列转换为行索引，并创建一个新的DataFrame：

In [113]: frame2 = frame.set_index(['c','d'])

In [114]: frame2
Out[114]: 
       a  b
c   d      
one 0  0  7
    1  1  6
    2  2  5
two 0  3  4
    1  4  3
    2  5  2
    3  6  1

默认情况下，那些列会被移除，也可以保留下来，drop=False：

In [115]: frame.set_index(['c','d'], drop=False)
Out[115]: 
       a  b    c  d
c   d              
one 0  0  7  one  0
    1  1  6  one  1
    2  2  5  one  2
two 0  3  4  two  0
    1  4  3  two  1
    2  5  2  two  2
    3  6  1  two  3

reset_index的功能跟set_index相反，层次化索引的级别会被移到列里面：

In [116]: frame2.reset_index()
Out[116]: 
     c  d  a  b
0  one  0  0  7
1  one  1  1  6
2  one  2  2  5
3  two  0  3  4
4  two  1  4  3
5  two  2  5  2
6  two  3  6  1

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 202,607评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,047评论 2赞 379
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 149,496评论 0赞 335
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,405评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,400评论 5赞 364
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,479评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,883评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,535评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,743评论 1赞 295
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,544评论 2赞 319
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,612评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,309评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,881评论 3赞 306
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,891评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,136评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,783评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,316评论 2赞 342

pandas入门（4）：层次化索引

重新分级排序：

根据级别汇总统计：

使用DataFrame的列：

推荐阅读更多精彩内容

使用`DataFrame`的列：