pandasⅠ- 数据结构

一、Series的定义

Series是一种类似于一维数组的对象,由下面两个部分组成:
- values:一组数据(ndarray类型)
- index:相关的数据索引标签

二、Series的创建

# 导包
  from pandas import Serice,DataFrame
# 由列表或数组创建(默认索引为0到N-1的整数型索引)
  s = Series(index=list('abcd'),data=[1,2,3,4])  
# 由字典创建
  s = Series({'a': 1, 'b': 2, 'c': 3, 'd':4})
# 可以设置索引
  s.index = list('abcd')

三、Series的索引和切片

s = Series(index=['张三','李四','王五'],data=np.random.randint(0,150)*3)
# 显式索引
  - s['张三'] # 282
  - s.loc['张三'] # 282
  - s.loc[['张三']] # 张三  282
# 隐式索引
  - s.iloc[0] # 282
# 切片
  - s['张三':'李四'] # 张三  282  李四  282
  - s.loc['张三':'李四'] # 张三  282  李四  282
  - s.iloc[0:2] # 张三  282  李四  282

四、Series的运算

1、适用于numpy的数组运算也适用于Series
2、Series之间的运算
  - 在运算中自动对齐不同索引的数据
  - 如果索引不对应,则补NaN(series没有广播机制!!!)
注意:要想保留所有的index,则需要使用.add()函数

五、DataFrame的定义

DataFrame是一个【表格型】的数据结构,可以看做是【由Series组成的字典】(共用同一个索引)。
DataFrame由按一定顺序排列的多列数据组成。设计初衷是将Series的使用场景从一维拓展到多维。
DataFrame既有行索引,也有列索引。
- 行索引:index
- 列索引:columns
- 值:values(numpy的二维数组)

六、DataFrame的创建

index = ['张三','李四','王五','赵六']
columns = ['语文','数学','英语','理综']
data = np.random.randint(0,150,size=(4,4))
df = DataFrame(index=index,columns=columns,data=data)
df

七、DataFrame的索引和切片

# 行索引
  - df.loc['张三']
  - df.loc['张三']['数学']
# 列索引
  - df['数学']
  - df['数学']['张三']
# 隐式索引
  - df.iloc[0]
  - df.iloc[0][1]
# 切片
  - 行切片:df['张三':'李四']
  - 列没有切片:df[['语文','数学']]
  - 隐式索引切片:df.iloc[0:2]

八、DataFrame的运算

1、DataFrame之间的运算

同Series一样:

  • 在运算中自动对齐不同索引的数据
  • 如果索引不对应,则补NaN
  • 要想在运算过程中,保留原有的数据,则需要使用操作函数来实现

下面是Python 操作符与pandas操作函数的对应表:

Python Operator Pandas Method(s)
+ add()
- sub(), subtract()
* mul(), multiply()
/ truediv(), div(), divide()
// floordiv()
% mod()
** pow()

2、Series与DataFrame之间的运算

  • 使用Python操作符:以行为单位操作(参数必须是行),对所有行都有效。(类似于numpy中二维数组与一维数组的运算,但可能出现NaN)

  • 使用pandas操作函数:
    axis=0:以列为单位操作(参数必须是列),对所有列都有效。
    axis=1:以行为单位操作(参数必须是行),对所有行都有效。

九、DataFrame处理丢失数据

有两种丢失数据:
- None:None是python自带的,其类型为python object。因此,None不能参与到任何计算中。
- np.nan:np.nan是浮点型类型,能参与到计算中。但计算的结果总是为NaN。但是:可以使用
          np.nan*()函数来计算nan,此时视nan为0。
1) pandas中None和np.nan都视为np.nan
2) pandas中None和np.nan的操作:
    - isnull():是null的显示True
    - notnull():不是null的显示True
    - dropna(how='any',axis=0):过滤丢失数据(axis=0,对行操作,axis=1,对列操作。how='any',任意一个符合,就作用整行或整列,how='all',整行或整列符合才作用。)
    - fillna(methods=None,axis=None):(前向/后向)填充丢失数据(methods='ffill/bfill',axis='0/1'),axis=0,看列的前后向,axis=1,看行的前后向。
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,902评论 5 468
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 84,037评论 2 377
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,978评论 0 332
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,867评论 1 272
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,763评论 5 360
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,104评论 1 277
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,565评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,236评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,379评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,313评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,363评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,034评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,637评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,719评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,952评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,371评论 2 346
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,948评论 2 341

推荐阅读更多精彩内容