《利用python进行数据分析》3.0——数据加载、存储和文本格式

1.pandas 中的解析函数
2.读取csv文件
3.当文件没有标题行
4.将多个列做成一个层次化索引，只需传入由列编号或列名组成的列表即可
5.有些表格不是用固定的分隔符去分割字段的，可用正则表达式\s+ 作为read_table的分隔符
6.用skiprows 跳过制定行数
7.缺失值处理
8.read_csv / read_table 函数的参数
9.逐块读取函数
10.将数据写入到文本格式

正文：

1.pandas 中的解析函数

read_csv : 默认分隔符为逗号
read_table : 默认分隔符为制表符（“\t”）
read_fwf : 读取定宽列格式数据（没有分隔符）
read_clipboard ：读取剪切板中的数据，，将网页转换为表格时很有用

2.读取csv文件
read_csv
df = pd.read_csv('ex1.csv')
read_table,需要指定分隔符
pd.read_table('ex1.csv', sep=',')

3.当文件没有标题行

让pandas为其分配默认的列名
pd.read_csv('ex2.csv', header = None)
自定义列名 names
pd.read_csv('ex2.csv', names=['a', 'b', 'c', 'd', 'message'])
如果想将message列做成DataFrame的索引,index_col 参数

pd.read_csv('ex2.csv', names=names, index_col = 'message')```

4.将多个列做成一个层次化索引，只需传入由列编号或列名组成的列表即可。
``` parsed = pd.read_csv('csv_mindex.csv', index_col = ['key1', 'key2'])```

![3](http://upload-images.jianshu.io/upload_images/3225209-f0b05ad320c89c33.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)

5.有些表格不是用固定的分隔符去分割字段的，可用正则表达式\s+ 作为read_table的分隔符
```result = pd.read_table('ex3.txt', sep = '\s+')```


![5](http://upload-images.jianshu.io/upload_images/3225209-9d8148c90a9d0cc8.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)

![5,1](http://upload-images.jianshu.io/upload_images/3225209-d36e28537488b97b.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)

6.用skiprows 跳过制定行数
 * 跳过文件的第一，三，四行
```pd.read_csv('ex4.csv', skiprows=[0, 2, 3])```

7.缺失值处理
  * 默认情况下，pandas会用一组经常出现的标记值进行识别，如 NA、-1.#IND 、NULL

* na_values 可以接受一组用于表示缺失值的字符串
```result = pd.read_csv('ex5.csv', na_values=['NULL'])```

![7](http://upload-images.jianshu.io/upload_images/3225209-8a263fe0fb8ea5fa.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
* 可以用一个字典为各列指定不同的NA标记值
```sentinels = {'message':['foo', 'NA'], 'something' : ['two']}
pd.read_csv('ex5.csv', na_values = sentinels)```

![7.1](http://upload-images.jianshu.io/upload_images/3225209-5361690a39c44b60.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)

8.read_csv / read_table 函数的参数
 * path , 表示文件系统位置， URL， 文件型对象的字符串
* sep 或 delimiter , 用于对行中各字段进行拆分的字符序列或正则表达式
* header 用事列名的行号。 默认为0,(第一行），如果没有header行就应该设置为None
* index_col 用于行索引的列编号或列宽
* names , 用于结果的列名列表
* skiprows 需要跳过的行号列表
* na_values 一组用于替换NA的值
* comment 用于将注释信息从行尾拆分出去的字符
* parse_dates ,  尝试将数据解析为日期，默认为False, 如果为True , 尝试解析所有列
* keep_date_col, 如果连接多列解析日期，则保持参与连接的列。默认为False？
* converters  , 由列号/列名跟函数之间的映射关系组成的字典。 例如{‘foo' : f’}  会对foo 列的所有值应用函数f
* dayfist, 当解析有歧义的日期时，将其看做国际格式。默认为False
* date_parser , 用于解析日期的函数
* nrows , 需要读取的行数 
* iterator ,  返回一个TextParse以便逐块读取文件
* chunksize, 文件快的大小
* skip_footer 需要忽略的行数（从文件末尾处算起）
* verbose ， 打印各种解析器输出信息
* encoding , 用于nuicode的文本编码格式。例如， “utf-8” 表示UTF-8 编码的文本
* squeeze , 如果数据经解析后仅含一列，则返回Series
* thousands, 千分位分隔符， 如“，” 或“.”

9.逐块读取函数
 * 如果只想读取几行， 通过nrows进行指定
```pd.read_csv('ex6.csv', nrows=5)```

* 逐块读取文件，需要设置chunksize（行数）
 * read_csv所返回的TextParser对象使你可以根据chunksize对文件进行逐块迭代。
 * TextParser 还有一个get_chunk 方法，能够读取任意大小的块。
```chunker = pd.read_csv('ex6.csv', chunksize=1000)
tot = Series([])
for piece in chunker:
     tot = tot.add(piece['key'].value_counts(), fill_value = 0)
tot = tot.order(ascending=False)

10.将数据写入到文本格式

利用DataFrame的to_csv 方法，将数据写到一个以逗号分隔的文件中。

data.to_csv('out.csv')

使用 | 分隔符。sys.stdout

data.to_csv(sys.stdout, sep = '|')```
* 可以将缺失值表示为别的标记值
```data.to_csv(sys.stdout, na_rep='NULL')```
* 禁用行和列的标签
```data.to_csv(sys.stdout, index = False, header = False)```

![10](http://upload-images.jianshu.io/upload_images/3225209-3446eab801f42e73.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
* 可以只写出一部分的列，并以指定的顺序排列
```data.to_csv(sys.stdout, index = False, cols=['a', 'b', 'c'])```
* Series也有一个to_csv方法：
```dates = pd.date_range('1/1/2000', periods =7)
ts = Series(np.arange(7), index = dates)
ts.to_csv('tseries.csv')

from_csv 方法

最后编辑于：2017.12.07 11:44:00

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 194,457评论 5赞 459
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 81,837评论 2赞 371
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 141,696评论 0赞 319
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 52,183评论 1赞 263
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 61,057评论 4赞 355
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 46,105评论 1赞 272
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 36,520评论 3赞 381
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 35,211评论 0赞 253
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 39,482评论 1赞 290
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 34,574评论 2赞 309
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 36,353评论 1赞 326
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 32,213评论 3赞 312
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 37,576评论 3赞 298
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 28,897评论 0赞 17
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 30,174评论 1赞 250
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 41,489评论 2赞 341
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 40,683评论 2赞 335

《利用python进行数据分析》3.0——数据加载、存储和文本格式

《利用python进行数据分析》3.0——数据加载、存储和文本格式

目录：

正文：

推荐阅读更多精彩内容

《 利用python进行数据分析》3.0——数据加载、存储和文本格式

目录：

正文：

推荐阅读更多精彩内容

《利用python进行数据分析》3.0——数据加载、存储和文本格式