目录:
1.pandas 中的解析函数
2.读取csv文件
3.当文件没有标题行
4.将多个列做成一个层次化索引,只需传入由列编号或列名组成的列表即可
5.有些表格不是用固定的分隔符去分割字段的,可用正则表达式\s+ 作为read_table的分隔符
6.用skiprows 跳过制定行数
7.缺失值处理
8.read_csv / read_table 函数的参数
9.逐块读取函数
10.将数据写入到文本格式
正文:
1.pandas 中的解析函数
- read_csv : 默认分隔符为逗号
- read_table : 默认分隔符为制表符(“\t”)
- read_fwf : 读取定宽列格式数据(没有分隔符)
- read_clipboard :读取剪切板中的数据,,将网页转换为表格时很有用
2.读取csv文件
read_csv
df = pd.read_csv('ex1.csv')
read_table,需要指定分隔符
pd.read_table('ex1.csv', sep=',')
3.当文件没有标题行
让pandas为其分配默认的列名
pd.read_csv('ex2.csv', header = None)
自定义列名 names
pd.read_csv('ex2.csv', names=['a', 'b', 'c', 'd', 'message'])
如果想将message列做成DataFrame的索引,index_col 参数
pd.read_csv('ex2.csv', names=names, index_col = 'message')```
4.将多个列做成一个层次化索引,只需传入由列编号或列名组成的列表即可。
``` parsed = pd.read_csv('csv_mindex.csv', index_col = ['key1', 'key2'])```
![3](http://upload-images.jianshu.io/upload_images/3225209-f0b05ad320c89c33.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
5.有些表格不是用固定的分隔符去分割字段的,可用正则表达式\s+ 作为read_table的分隔符
```result = pd.read_table('ex3.txt', sep = '\s+')```
![5](http://upload-images.jianshu.io/upload_images/3225209-9d8148c90a9d0cc8.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
![5,1](http://upload-images.jianshu.io/upload_images/3225209-d36e28537488b97b.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
6.用skiprows 跳过制定行数
* 跳过文件的第一,三,四行
```pd.read_csv('ex4.csv', skiprows=[0, 2, 3])```
7.缺失值处理
* 默认情况下,pandas会用一组经常出现的标记值进行识别,如 NA、-1.#IND 、NULL
* na_values 可以接受一组用于表示缺失值的字符串
```result = pd.read_csv('ex5.csv', na_values=['NULL'])```
![7](http://upload-images.jianshu.io/upload_images/3225209-8a263fe0fb8ea5fa.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
* 可以用一个字典为各列指定不同的NA标记值
```sentinels = {'message':['foo', 'NA'], 'something' : ['two']}
pd.read_csv('ex5.csv', na_values = sentinels)```
![7.1](http://upload-images.jianshu.io/upload_images/3225209-5361690a39c44b60.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
8.read_csv / read_table 函数的参数
* path , 表示文件系统位置, URL, 文件型对象的字符串
* sep 或 delimiter , 用于对行中各字段进行拆分的字符序列或正则表达式
* header 用事列名的行号。 默认为0,(第一行),如果没有header行就应该设置为None
* index_col 用于行索引的列编号或列宽
* names , 用于结果的列名列表
* skiprows 需要跳过的行号列表
* na_values 一组用于替换NA的值
* comment 用于将注释信息从行尾拆分出去的字符
* parse_dates , 尝试将数据解析为日期,默认为False, 如果为True , 尝试解析所有列
* keep_date_col, 如果连接多列解析日期,则保持参与连接的列。默认为False?
* converters , 由列号/列名跟函数之间的映射关系组成的字典。 例如{‘foo' : f’} 会对foo 列的所有值应用函数f
* dayfist, 当解析有歧义的日期时,将其看做国际格式。默认为False
* date_parser , 用于解析日期的函数
* nrows , 需要读取的行数
* iterator , 返回一个TextParse以便逐块读取文件
* chunksize, 文件快的大小
* skip_footer 需要忽略的行数(从文件末尾处算起)
* verbose , 打印各种解析器输出信息
* encoding , 用于nuicode的文本编码格式。例如, “utf-8” 表示UTF-8 编码的文本
* squeeze , 如果数据经解析后仅含一列,则返回Series
* thousands, 千分位分隔符, 如“,” 或“.”
9.逐块读取函数
* 如果只想读取几行, 通过nrows进行指定
```pd.read_csv('ex6.csv', nrows=5)```
* 逐块读取文件,需要设置chunksize(行数)
* read_csv所返回的TextParser对象使你可以根据chunksize对文件进行逐块迭代。
* TextParser 还有一个get_chunk 方法,能够读取任意大小的块。
```chunker = pd.read_csv('ex6.csv', chunksize=1000)
tot = Series([])
for piece in chunker:
tot = tot.add(piece['key'].value_counts(), fill_value = 0)
tot = tot.order(ascending=False)
10.将数据写入到文本格式
- 利用DataFrame的to_csv 方法,将数据写到一个以逗号分隔的文件中。
data.to_csv('out.csv')
- 使用 | 分隔符。sys.stdout
data.to_csv(sys.stdout, sep = '|')```
* 可以将缺失值表示为别的标记值
```data.to_csv(sys.stdout, na_rep='NULL')```
* 禁用行和列的标签
```data.to_csv(sys.stdout, index = False, header = False)```
![10](http://upload-images.jianshu.io/upload_images/3225209-3446eab801f42e73.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
* 可以只写出一部分的列,并以指定的顺序排列
```data.to_csv(sys.stdout, index = False, cols=['a', 'b', 'c'])```
* Series也有一个to_csv方法:
```dates = pd.date_range('1/1/2000', periods =7)
ts = Series(np.arange(7), index = dates)
ts.to_csv('tseries.csv')
- from_csv 方法
.