简介
一个高效数据处理库,建立在Numpy基础上。
安装
conda install pandas #conda安装
导入方法
import pandas as pd
基本使用方法
使用前,需要了解pandas有三种常见的数据结构,依次是:Series(序列),DateFrame(数据框),Panel(面板)。可以这样理解,Panel是DateFrame的容器,DateFrame是Series的容器。DateFrame是最常用的数据结构。
所以本文档先介绍DateFrame的相关操作:
DateFrame是二维的带标签的各列数据类型可以不同的数据结构。可以想象成电子表格或者字典序列数据结构。
# 创建一个空的DataFrame
import pandas as pd
df = pd.DataFrame()
print(df)
#从列表创建DataFrame
import pandas as pd
data = [1,2,3,4,5]
df = pd.DataFrame(data)
print(df)
#使用字典结构创建DataFrame
import pandas as pd
data = {'Name':['Tom', 'Jack', 'Steve', 'Ricky'],'Age':[28,34,29,42]}
df = pd.DataFrame(data)
print(df)
#通过传递columns参数来设置各列的顺序
pd.DataFrame(data,columns=['Age','Name'])
#通过index参数定义各行标签
pd.DataFrame(data,index=['a','b','c','d'])
#选择特定列
df['Age']
#删除特定列
del df['Age']
#插入特定列
df.insert(0,'Age',[1,2,3,4])
读写数据
- pandas提供了多种读/写数据的接口,读/写数据的范围主要包括读取文本数据,从数据库中读取数据,和其他库中的数据交互。
- pandas可以读取各种格式的文本数据,并将它们转换成DataFrame(数据框)。
- read_csv和read_table是读取文本数据的两个重要函数。
#直接读取CSV文件
import pandas as pd
df=pd.read_csv('./example_1.csv')
print(df)
#使用read_table读取文件(需定义分隔符)
df=pd.read_table('./example_1.csv',sep=',')
print(df)
#head默认为第一行数据
df.head
#把数据写入文本中(以下为例子)
import numpy as np
import pandas as pd
data=pd.DataFrame(np.random.rand(4,4))
data.to_csv('./example_2.csv')