|
---导入pandas--- |
import pandas as pd |
导入pandas包并将之简写为pd |
|
|
|
|
|
---创建pandas中的DataFrame和Series--- |
pd.DataFrame() |
创建 pandas DataFrame |
pd.Series() |
创建 pandas Series |
|
|
|
---数据选择--- |
df.column_name |
选取数据框的某一列,生成Series格式数据,df为数据框,column_name为列名 |
df['column_name'] |
选取数据框的某一列,生成Series格式数据 |
df[['column_name']] |
选取数据框的列,生成DataFrame格式数据 |
df.loc[ ] |
使用行和列的标签索引选取数据 |
df.iloc[ ] |
使用行和列的数值索引选取数据 |
|
|
|
|
|
---导入csv格式数据--- |
pd.read_csv() |
在pandas中读取csv文本格式数据 |
|
|
|
|
|
---观察数据框--- |
df.head() |
查看数据框df的前几行数据 |
df.tail() |
查看数据框df的最后几行数据 |
df.info() |
获取数据框df的信息 |
df.describe() |
获取数据框df的各项统计值 |
df.index |
查看数据框df的行索引 |
df.columns |
查看数据框df的列名 |
df.shape |
查看数据框df的形状,行数和列数 |
|
|
|
|
|
---Series数据的一些统计分析函数--- |
se.unique() |
获取Series数据中的数值种类,一般用于分类数据,这里se为Series格式数据 |
se.value_counts() |
统计Series数据中的数值种类及其对应的数据个数 |
se.mean() |
计算Series数据的均值 |
se.std() |
计算Series数据的标准差 |
se.median() |
计算Series数据的中位数 |
se.max() |
计算Series数据的最大值 |
se.min() |
计算Series数据的最小值 |
se.count() |
计算Series数据的个数 |
|
|
|
---pandas绘图函数--- |
df.plot(kind='scatter', x= , y= ) |
绘制散点图 |
df.plot(kind='box') |
绘制箱图 |
df.boxplot(by='column_name') |
绘制箱图,并按 column_name 这一列的分类数值进行分组 |
|
|
|
|
groupby |
数据的分组 |
|
数据的聚合 |
内置函数 |
count、mean、sum、max |
自定义函数 |
agg:将一组数据聚合成标量的形式 |
自定义函数 |
apply:将多组数据聚合运算 |
def 函数名(参数): |
|
函数体 |
|
return 函数命令 |
自定义函数 |