官方文档:十分钟上手pandas
这里主要mark一些常用的操作
0.导入库
import pandas as pd
import numpy as np
1.读数据
data=pd.read_csv('path',header=None,encoding='utf-8',sep = '\t',index_col=0) #读取csv文件
data = pd.read_table('path',header=None,encoding='utf-8',sep = '\t',index_col=0)#读取txt文件
其中后面可以带一些指定的参数,指定编码、分隔符等等
2.导出数据
data.to_csv('path',encoding='utf-8',sep = '\t') #同样可以指定格式
3.统计
data_sum=data.groupby(by=[0,1]).sum() #统计由(0,1)这两列分组下的总和
data_max=data.groupby(by=[0,1]).max() #统计由(0,1)这两列分组下的最大值
data_max=data.groupby(by=[0,1]).min() #统计由(0,1)这两列分组下的最小值
data_max=data.groupby(by=[0,1]).mean() #统计由(0,1)这两列分组下的均值
data_std=data.groupby(by=[0]).std() #统计标准差
4.修改表
new_data_time.reset_index(name='times') #重命名列名
5.拼接数据
需求:统计了某列数据的结果,想要拼接到结果表中
data_sum=data_sum.assign(times=data_time[2]) #指定data_sum的列为data_time的数据,相当于把data_time名字为2的列拼到data_sum后
6.设置精度
需求:统计后发现float、double数据小数点位数太多
rret_1=rret_0.round({name1:1,name2:1}) #意思是:将这两列精确到小数点后1位