Pandas基本操作以及SQL对照

介绍

CREATE TABLE "candidates" (
    "id" INTEGER PRIMARY KEY  NOT NULL ,
    "first_name" VARCHAR,
    "last_name" VARCHAR,
    "middle_name" VARCHAR,
    "party" VARCHAR NOT NULL
);
CREATE TABLE "contributors" (
    "id" INTEGER PRIMARY KEY  AUTOINCREMENT  NOT NULL,
    "last_name" VARCHAR,
    "first_name" VARCHAR,
    "middle_name" VARCHAR,
    "street_1" VARCHAR,
    "street_2" VARCHAR,
    "city" VARCHAR,
    "state" VARCHAR,
    "zip" VARCHAR,
    "amount" INTEGER,
    "date" DATETIME,
    "candidate_id" INTEGER NOT NULL, name,
    FOREIGN KEY(candidate_id) REFERENCES candidates(id)
);

dfcond对应的是contributors表,dfuser对应的是condidates

数据查询

  • 单条件
    查找first_name为‘John’的数据
dfcond.query("first_name=='John'")
dfcond[dfcond.first_name=='John']
dfcond.loc[dfcond.first_name=='John']
上面三个语句等价
###SQL
select  * from contributors where first_name == 'John'
  • 多条件
    查找last_name为Ahrens,订单大于500的数据
dfcond.query("last_name=='Ahrens' and amount>500")
###SQL
select * from contributors where last_name=='Ahrens' and amount>500
  • 空值
    查找state为空的数据
dfcond[dfcond.state.isnull()]
###SQL
select * from contributors where state is null
  • 多值选择
    查找state为VA或者WA的数据
dfcond[dfcond.state.isin(['VA','WA'])]
###SQL
select * from contributors where state in ('VA','WA')
  • 区间查找
    查到订单介于10到50之间的数据
dfcond.query("10<=amount<=50")
###SQL
select * from contributors where amount between 10 and 50
  • 重复值
    查找first_name,last_name
dfcond[['first_name,last_name']].drop_duplicates()
dfcond.drop_duplicates(subset=['first_name,last_name'],keep='first')
keep还可以选择'last',或者False删除所有重复项
###SQL
select distinct first_name,last_name from contributors
  • 数据返回量控制
    返回三条记录
dfcond[0:3]
dfcond.iloc[0:3]
#SQL
select * from contributors limit 3
  • 带有函数的例子
    订单值大于最大订单值减去2000
dfcond[dfcond.amount>dfcond.amount.max()-2000]
###SQL
select * from contributors where amount>(select max(amount) from contributors)
  • 联合查找
    从candidates表中查找last_name为Obama,然后去contributors中查找与其有关的记录。
cid = dfuser.query("last_name=='Obama'")['id'].values[0]
dfcond.query('candidate_id=={}'.format(cid))
###SQL
select * from contributors where candidate_id =
 (select id from candidates where last_name='Obama')
#也可以进行隐式连接
select contributors.last_name,contributors.amount from contributors,candidates where 
condidates.last_name='Obama' and condidates.id = contributors.candidate_id
  • 内联
dfcond.merge(dfuser,left_on='candidate_id',right_on='id')
###SQL
select * from contributors,candidates where contributors.candidate_id =
candidates.id
select * from contributors inter join candidates on candidate_id=candidates.id
#这里有个疑问就是candidate_id如果加了表名字段就会报错,找不到字段
  • 左联/右联/全联
dfcond.merge(dfuser,left_on='candidate_id',right_on='id',how='left/right/outer')
###SQL
select * from contributors left join candidates on candidate_id=candidates.id
select * from contributors right join candidates on candidate_id=candidates.id
select * from contributors full join candidates on candidate_id=candidates.id

left,right,full的区别?

行列操作

  • 列选择
    选择first_name列
dfcond['first_name']
dfcond[['first_name','last_name']]#多列选择
###SQL
select first_name from contributors
select first_name,last_name from contributors
  • 新增加一列
    增加一列name
dfcond['name'] = dfcond['last_name']+','+dfcond['first_name']
dfcond.assign(name=dfcond.last_name+":"+dfcond.first_name)
###对于sql要修改数据表
ALTER TABLE contributors ADD COLUMN name varchar(255);
  • 列删除
    删除name列
del dfcond['name']
###SQL
alter table contributors drop column name
  • 行删除
    删除所有last_name为Ahrens的行
#这里其实比较复杂,先把last_name弄成索引,然后删除,最后恢复索引
df2=dfcwdi.copy()
df2.set_index('last_name', inplace=True)
df2.drop(['Ahrens','Akin'],inplace=True)#这里可以单个也可以多个值
df2.reset_index()
# 其实这里没必要这样直接就是查询last_name 不等于Ahrens的行就可以了
ndf = dfcwdi.query('last_name!="Ahrens"')
###SQL
delete from contributors where last_name='Ahrens'
delete from contributes where last_name in ('Ahrens','Akin')

数据修改

  • 多行数据修改
dfcond.loc[dfcond.state=='VA','name'] = "Junk"
###SQL
update contributors set name = "Junk" where state = 'VA'

聚合Aggregate

  • 极值
###amount最大值
dfcond.describe()###获取平均值,极值(貌似只对数据有效)
dfcond.amount.max()
dfcond[dfcond.amount.max()==dfcond.amount]
###SQL
select *,max(amount) as maxcol from contributors
  • 计数
dfcond.count()
#返回所有字段的统计计数,空值不算
dfcond.info()#这个函数也有同样的结果
dfcond.XX.count_values()#对相同的值进行统计,类似于Counter功能
###SQL
select count(amount) as countcol from contributors
#平均值
select avg(amount) as avgcol from contributors
  • groupby
    根据state分类汇总
dfcond.groupby('state').sum()#分类汇总求和
gb = dfcond.groupby('state')#分组
CA = gb.get_group('CA')#获取单个分组
###SQL
SELECT state,SUM(amount) FROM contributors GROUP BY state

排序

df = dfcond.sort_values(by=['last_name'],ascending=False)#采用降序排列
###SQL
SELECT * FROM contributors ORDER BY last_name DESC;

pandas与数据库之间的转换

from sqlite3 import dbapi2 as sq3
import os
PATHSTART="."
def get_db(dbfile):
    sqlite_db = sq3.connect(os.path.join(PATHSTART, dbfile))
    return sqlite_db
def init_db(dbfile, schema):
    """Creates the database tables."""
    db = get_db(dbfile)
    db.cursor().executescript(schema)
    db.commit()
    return db
db=init_db("cancont.db", ourschema)
dfusers.to_sql("candidates", db, if_exists="append", index=False)
dfcand.to_sql("contributors", db, if_exists="append", index=False)

另一种数据插入方法

ins="""
INSERT INTO candidates (id, first_name, last_name, middle_name, party) \
    VALUES (?,?,?,?,?);
"""
#candidates.txt文件中第一行是表头
with open('./candidates.txt') as f:
    lines = f.readlines()
    for line in lines[1:]:
        zid,first_name,last_name,middle_name,party = line.strip().split('|')
        print(zid,first_name,last_name,middle_name,party)
        vals = (int(zid),first_name,last_name,middle_name,party)
        print(vals)
        db.cursor().execute(ins,vals)

sql语句执行函数

def make_query(sql):
    c = db.cursor().execute(sql)
    return c.fetchall()

把查询结果转换为dataframe对象

def make_frame(data,col_names):
    frame = []
    for i,name in enumerate(col_names):
        frame.append((name,[d[i] for d in data]))
    #把行编程列
    return pd.DataFrame.from_items(frame)

上面的函数需要列名

col_names = [field[1] for field in make_query("pragma table_info(contributors)")]
#这是针对sqlite

使用例子

make_frame(make_query("select * from contributors where state is null"),col_names)

如果是sqlite数据库,可以直接如下读取

pd.read_sql("SELECT * FROM candidates WHERE party= 'D';", db)
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,362评论 5 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,330评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,247评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,560评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,580评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,569评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,929评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,587评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,840评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,596评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,678评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,366评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,945评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,929评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,165评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,271评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,403评论 2 342

推荐阅读更多精彩内容

  • 小麦这几天有个特别的新情况 就是好基友已经有了心怡的女孩[惊恐] 这才不到十岁诶[囧]小哥嘻嘻索索的唠叨着他这个好...
    Snowy_125阅读 511评论 0 0
  • 2017年已经悄悄地过了一半,这半年里养成了一些好的习惯,每次想起来就有点小自豪,每天有几件必须要做的事情,不但不...
    snailwww阅读 206评论 2 2
  • 昨晚有一股清风 我不知道它为什么远离 昨晚有一个人 我不知道他为何在窗外站了许久许久 昨晚 隔壁 发生了一场战争 ...
    为你点一杯阳春面阅读 103评论 0 1