Dataframe:基本概念及创建
Dataframe 数据结构
Dataframe是一个表格型的数据结构,“带有标签的二维数组”
Dataframe带有index(行标签)和columns(列标签),这两个属性十分重要!!!
pd.DataFrame(data,index,columns)
data:为传入的值可以为
data = {'name':['Jack','Tom','Mary'] 'age':[18,19,20], 'gender':['m','m','w']}
data = {'a':[1,2,3], 'b':[3,4,5], 'c':[5,6,7]}
data = {'one':np.random.rand(3), 'two':np.random.rand(3)}
data= {'one':pd.Series(np.random.rand(2), index = ['a','b'])
data=np.random.rand(9).reshape(3,3)#直接传入2维数组,必须指定index | columns 按照list的方式来传入
data = {'Jack':{'math':90,'english':89,'art':78}, 'Marry':{'math':82,'english':95,'art':92}, 'Tom':{'math':78,'english':67}}#index在这里和之前不同,并不能改变原有index,如果指向新的标签,值为NaN (非常重要!)
Jack Marry Tom
art 78 92 NaN
english 89 95 67.0
math 90 82 78.0
Pandas数据结构Dataframe:索引
Dataframe既有行索引也有列索引,可以被看做由Series组成的字典(共用一个索引) 选择列 / 选择行 / 切片 / 布尔判断
注:data[‘列’][‘行’]默认的参数
data3 = df.loc['one'](.loc()选择行)
df.iloc[] - 按照整数位置(从轴的0到length-1)选择行
data4 = df.loc[['one','two']]
print(data2,type(data3))
print(data3,type(data4))
# 按照index选择行,只选择一行输出Series,选择多行输出Dataframe
#切变的操作与字典一致
布尔值索引
b1 = df < 20
b2 = df['a'] > 50
b3= df.loc[['one','three']] < 50
b4 = df[['a','b']] > 50
print(b1,type(b1))
print(df[b1])
多重索引
print(df['a'].loc[['one','three']]) # 选择a列的one,three行
print(df[['b','c','d']].iloc[::2]) # 选择b,c,d列的one,three行
print(df[df['a'] < 50].iloc[:2]) # 选择满足判断索引的前两行数据
Pandas数据结构Dataframe:基本技巧
数据查看、转置 / 添加、修改、删除值 / 对齐 / 排序
df['e'] = 10
df.loc[4] = 20
print(df)
# 新增列/行并赋值
df['e'] = 20
df[['a','c']] = 100
print(df)
# 索引后直接修改值
del df['a']
# del语句 - 删除列
print(df.drop(0))
print(df.drop([1,2]))
# drop()删除行,inplace=False → 删除后生成新的数据,不改变原数据
print(df.drop(['d'], axis = 1))
# drop()删除列,需要加上axis = 1,inplace=False → 删除后生成新的数据,不改变原数据
print(df1 + df2)
# DataFrame对象之间的数据自动按照列和索引(行标签)对齐
排序1 - 按值排序 .sort_values
# 同样适用于Series
print(df1.sort_values(['a'], ascending = True)) # 升序
print(df1.sort_values(['a'], ascending = False)) # 降序
# ascending参数:设置升序降序,默认升序
# 单列排序
print(df2.sort_values(['a','c']))
# 多列排序,按列顺序排序
排序2 - 索引排序 .sort_index
print(df2.sort_index())
# 按照index排序
# 默认 ascending=True, inplace=False