pandas

自学整理记录,大神见笑

为什么要学习pandas

  • numpy是处理数值型数据
  • pandas除了能处理numpy处理的数据以外,还能处理其他类型数据
  • 导包

import pandas as pd

  • 注:pandas安装不上,可以用源码安装,百度pandas pypi;whl执行文件,tar.gz压缩文件

pandas的常用数据类型

Series

  • 一维,带索引的数组

  • Series创建

t = pd.Series(np.arange(5),index=list("abcde"))

  • 注:index是指定索引
  • 注:index要和数组长度相等

temp_dict = {"name":"xiaohong","age":1,"tel":"119"}
pd.Series(temp_dict,index=list("name"))

  • 注:还可以通过传字典来创建

  • 注:字典创建也可以传入索引,如果传入的索引存在,则对应之前索引的值;如果是全新的索引,那么值为NaN

  • 注:在numpy中为nan,在pandas中为NaN

  • pandas之Series切片和索引

list = {"name": "xiaohong", "age": 1, "tel": "119"}
t = pd.Series(list)
t["age"]
t[1]
t[:2]
t[[1,2]]

  • 注:分别表示取到age对应的值;索引1对应的值;前两行对应的值;第一行和第二列对应的值

  • 注:如果取值中的键值没有,那么值为NaN

  • pandas之Series索引和值

t.index

  • 注:获取所有索引
  • 注:返回index类型

t.values

  • 注:获取所有值

  • 注:返回ndarray类型

  • 注:ndarray中很多方法都可以运用于series类型,比如argmax,clip

  • 注:series具有where方法,但结果和ndarray不同

  • pandas读取外部数据

pd.read_csv # 读取csv文件
pd.read_clipboard # 读取剪切板文件
pd.read_excel # 读取excel文件
pd.read_json # 读取json文件
pd.read_html # 读取html文件
pd.read_pickle #
pd.read_sql #
pd.read_sql_query #
pd.read_sql_table #
pd.read_sql(sql_sentence,connection) # 读取mysql,传入sql语句,连接即可;
# 读取mongodb,获取到第一条数据
client = MongoClient()
collection = client["MyMongo"]["test1"]
data = list(collection.find())
t1 = pd.Series(data[0])

DataFrame

  • 二维,Series容器

  • 创建DataFrame

pd.DataFrame(np.arange(12).reshape(3,4),index=list("abc"),columns=list("wxyz"))

  • DataFrame对象既有行索引,又有列索引
  • index是行索引,columns是列索引

temp_dict = [{"name":"xiaohong","age":1,"tel":"119"},{"name":"xiaoxiao","tel":"110"}]
pd.DataFrame(temp_dict)

  • 注:也可以传字典生成DataFrame
  • 注:如果有缺失的值,用NaN代替

DataFrame方法

  • 行数 列数

df.shape

  • 列数据类型

df.dtypes

  • 数据维度

df.ndim

  • 行索引

df.index

  • 列索引

df.columns

  • 对象值,二维ndarray数组

df.values

  • 显示前几行,默认5行

df.head()

  • 显示末尾几行,默认5行

df.tail()

  • 相关信息

df.info()

  • 快速综合统计结果

df.describe()

  • 排序

df.sort_values(by="Count",ascending=False)

  • 注:by参数表示按照哪列排序,默认升序

  • 注:ascending参数默认True升序,False为降序

  • 取行和取列

t = pd.DataFrame(np.arange(12).reshape(3, 4),index=list("abc"),columns=("WXYZ"))
df.loc["a":"c","W"]
df.iloc[[0,2],[2,1]]

  • 注:loc中的冒号是闭合的

  • 注:loc是通过索引获取数据

  • 注:iloc是通过实际位置获取数据

  • 更改值

t = pd.DataFrame(np.arange(12).reshape(3, 4),index=list("abc"),columns=("WXYZ"))
df.loc["a":"c","W"] = 1
df.iloc[[0,2],[2,1]] = np.nan

  • 注:直接赋值即可

  • 注:直接将nan赋值即可,不需要先转换为float类型,因为DataFrame已经在底层转换了

  • pandas布尔索引

df[(df["Row"].str.len() > 4) & (df["Count"] > 700)]

  • 注:不同的条件之间需要用括号括起来,用&且、|或连接

  • 注:.str就可以取到字符串,.len()就会获得长度

  • pandas字符串方法

1543483013(1).jpg
方法 说明
cat 元素级字符串连接操作,sep参数指定连接的字符串
contains 返回表示各字符串是否含有指定的布尔型数组

DataFrame缺失数据的处理

  • 数据缺失两种情况
    1.为空,NaN等
    2.为0,可能是真数据,也可能是填充数据,区分对待

  • 判断数据是否为NaN

pd.isnull(df)

  • 判断数据是否不为NaN

pd.notnull(df)

  • 删除NaN的数据的行或者列或者个体

t.dropna(axis=0,how="any",inplace=True)

  • 注:how参数默认为any,有一个为NaN,就删除;all,全部是NaN才删除

  • 注:inplace参数默认为False,不修改原数据;True为修改原数据

  • 在NaN处填充数据

t.fillna(t.mean())
t["age"].fillna(t["age"].mean())

  • 注:通常替换均值,第一种是所有列的均值替换,第二种是替换某一列的
  • 注:pandas中的t.mean()会将NaN剔除,然后计算均值,与numpy不同

数据合并

  • 按照行索引合并

df1.join(df2)

  • 详细如图:
join.png
  • 注:以df1行为基准,没有的值填NaN

  • 按照列索引合并

df1.merge(df2)

  • 详细如图:
merge.png

数组分组

  • grouped = df.groupby(by="Country")
image.png
  • 将csv文件按照country分组,返回DataFrameGroupBy对象,该对象可以遍历,可以统计数量等
  • grouped中的每一个元素是一个元组,元组里面是(索引(分组的值),分组之后的DataFrame)
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,214评论 6 481
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,307评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 152,543评论 0 341
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,221评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,224评论 5 371
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,007评论 1 284
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,313评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,956评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,441评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,925评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,018评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,685评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,234评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,240评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,464评论 1 261
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,467评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,762评论 2 345

推荐阅读更多精彩内容