1pandas介绍及安装
Pandas是什么?
Pandas是基于Numpy的一种工具,提供了高性能矩阵的运算,该工具是为了解决数据分析任务而创建的。也是贯穿整个Python数据分析非常核心的工具。
Pandas安装
直接在dos命令行中pip install pandas 即可。
Pandas涉及内容
基于 xlrd & xlwt 这2个库需要预先安装才能更好使用pandas
Pandas数据结构介绍
1. Series
Series是一种一维的数组型对象,它包含了一个值序列(values),并且包含了数据标签,称为索引(index)。
Series参数
C:\Users\Ligang\Desktop>md pandas
C:\Users\Ligang\Desktop>cd pandas
C:\Users\Ligang\Desktop\pandas>jupyter notebook
进入jupyter notebook
import pandas as pd
pd.Series??
pd.Series(data=None,index=None,dtype=None,name=None,copy=False)
• data:创建数组的数据,可为array-like, dict, or scalar value
• index:指定索引
• dtype:数组数据类型
• name:数组名称
• copy:是否拷贝
data可为iterable, dict, or scalar value
一. 当data为数组
## 当data为数组
s1 = pd.Series([1,2,3,4,5])
s1
>>>out
0 1
1 2
2 3
3 4
4 5
dtype: int64
1.创建时指定索引
# 创建时指定索引
s2 = pd.Series([1,2,3,4,5], index=list('abcde'))
s2
>>>out
a 1
b 2
c 3
d 4
e 5
dtype: int64
2.索引可重复
# pandas 索引可重复
s3 = pd.Series([1,2,3,4,5], index=list('aacde'))
>>>out
a 1
a 2
c 3
d 4
e 5
dtype: int64
3.索引个数必须与值一致 否则报错
二 data 为dict
1,构建索引列表 以index指定为主
三 当data为scalar
数组的数据类型
指定数组数据类型
变更数组数据类型
设置数组名字:参数name
1,指定索引的名称
2,预览数据
# 预览数据
s9.head() # 默认取出前5行,对应指定n
s9.tail() # 默认取出后5行,对应指定n
显示全部数据
#显示所有行
pd.set_option('display.max_columns',None)
# 显示所有列
pd.set_option('display.max_rows',None)
#设置value的显示长度为100,默认为50
pd.set_option('max_colwidth',100)
总结
-pd.Series()
-data
-数组,ndarray
-列表 list
- 字典,它的key为对应index,value为对应的value
-dtype
- 指定数据类型
-name
-数组的名字
series索引值
series的索引与值
• s.index # 查看索引
• s.values # 查看值序列
• s.reset_index(drop=False) # 重置索引
• drop # 是否删除原索引 默认为否
注意
• 索引对象是不可变的,所以不能单个修改索引
Series索引与切片
• s['标签'] # 通过标签
• s['索引'] # 通过索引
• s.loc(标签) # 通过标签
• s.iloc(索引) # 通过索引
Series的索引及切片
1,创建s3
2,查看数据2的几种方式
3,将数据4更改为10
4,查看数据1和10的神器索引
5,产看连续数据1~3
6,布尔索引
7,标量运算
8,in判断的运用只能判断标签不能判断值
9,pandas会根据数据类型自动处理缺失数据
Series 运算
当s1与s2有共同索引时,共同索引位置对应位置运算 不对应位置填充NAN。