python知识复习(一)--(磁盘)IO编程

一·input和raw_input
input()输入严格按照Python的语法，是字符就加 ' ' ，数字就是数字，并且input()可以接收一个Python表达式作为输入，并将运算结果返回。
raw_input()随便输都是字符串，会从标准输入（sys.stdin）读取一个输入并返回一个字符串，且尾部的换行符从末尾移除。
测试代码如下：

x1 = input('input number:')
x2 = input('input string:')
print type(x1),type(x2)

x3 = raw_input('raw_input number:')
x4 = raw_input('raw_input string:')
print type(x3),type(x4)

x5 = input('input [x*2 for x in range(5)]:')
x6 = raw_input('raw_input [x*2 for x in range(5)]:')
print x5,x6

x7 = input('input "[x*2 for x in range(5)]":')
x8 = raw_input('raw_input "[x*2 for x in range(5)]":')
print x7,x8

运行结果：

运行结果1.png

二·文件读写
1.open(file_name [, access_mode][, buffering])
filename:如果只只传入这一参数，文件不存在时会返回一个错误。
access_mode:决定了打开文件的模式：只读，写入，追加等,这个参数是非强制的，默认文件访问模式为只读(r)
buffering:为0，I/O操作为无缓冲，直接写入磁盘，为1，有缓冲，先写到内存，在调用flush和close时更新到磁盘，大于1，表示缓冲区的大小(单位：字节)，-1为使用默认缓冲区大小。
为了避免在打开文件时产生IO error，以及提高代码的健壮性，可将打开文件代码写为：

        with open(r'../test.txt','w+') as f:
        f.write(‘......’)

打开文件，读写完毕后要调用close关闭释放资源，避免浪费有限的IO资源。
下面是几种常用mode对应的文件权限图：

模式-权限.png

2.文件读取，可以采用read()和readlines()一次性将文件全部读入内存中，文件太大时，应采用read(size)和readline()的方式进行读取。(但readline()不能输出指定行。可使用text = linecache.getline(filename, 2)来读取指定行)。此外还可以通过迭代文件的方式读取(文件也是个可迭代对象)：

with open(filename, 'r') as flie:
    for line in file:
        ....

3.文件写入
使用write写入字符串，但不可写入可迭代对象，而writelines则相反。
三.操作文件和目录
在 Python中对文件和目录的操作经常用到os模块和 shutil模块。接下来主要介绍一些操作文件和目录的常用方法：
获得当前 Python脚本工作的目录路径： os.getcwd。

返回指定目录下的所有文件和目录名： os.listdir()。
例如返回C盘下的文件os.listdir("C: \")

删除一个文件： os.remove(filepath)

删除多个空目录： os.removedirs(r"d:\python")

检验给出的路径是否是一个文件： os.path.isfile( filepath)

检验给出的路径是否是一个目录： os.path.isdir( filepath)

判断是否是绝对路径： os.path.isabs()。

检验路径是否真的存在： os.path.exists()。例如检测D盘下是否有 Python文件夹os.path.exists(r"d: \ python")

分离一个路径的目录名和文件名： os.path. split()。例如：
os.path.split(r" home/qiye/qiye. txt")，返回结果是一个元组：('home/qiye','qiye.txt')

分离扩展名： os path.splitext()。例如 os.path. splite(r"/home/ /qiye/qiye.txt")，返回结果
是一个元组：('/home/ qiye/qiye','.txt')

获取路径名： os.path.dirname( filetpath)

获取文件名： os.path.basename( filepath)

读取和设置环境变量： os.getenv()与 os.putenv()。

给出当前平台使用的行终止符： os.linesep(),Windows使用"\r\n'， Linux使用'\n'而Mac使用'\r'

指示你正在使用的平台：os.name对于 Windows，它是nt，而对于 Linux/Unix用户,它是'posix'。

重命名文件或者目录： os.rename( old, new).

创建多级目录： os.makedirs(r"c:\Python\test")。

创建单个目录： os.mkdir("test")

获取文件属性： os.stat(file)

修改文件权限与时间戳： os.chmod(file)

获取文件大小： os.path.getsize(filename)

复制文件夹： shutil.copytree(" olddir"," newdir") o olddir和 newdir都只能是目录，且 newdir
必须不存在。

复制文件： shutil.copyfile(" oldfile"," newfile")， oldfile和 newfile都只能是文件； shutil
copy("oldfile"," newfile"), oldfile只能是文件， newfile可以是文件，也可以是目标目录。

移动文件(目录)： shutil.move("oldpos"," nepos").

删除目录： os.rmdir("dir")，只能删除空目录；
shutil.rmtree("dir"),空目录、有内容的
目录都可以删.
四.字符编码
字符编码

要读取非UTF-8编码的文本文件，需要给open()函数传入encoding参数，例如，读取GBK编码的文件：

>>> f = open('test.txt', 'r', encoding='gbk')
>>> f.read()

遇到有些编码不规范的文件，你可能会遇到UnicodeDecodeError，因为在文本文件中可能夹杂了一些非法编码的字符。遇到这种情况，open()函数还接收一个errors参数，表示如果遇到编码错误后如何处理。最简单的方式是直接忽略：

>>> f = open('test.txt', 'r', encoding='gbk', errors='ignore')

五.序列化与反序列化
可从这查看原文廖雪峰-序列化
把变量从内存中变成可存储或传输的过程称之为序列化，在Python中叫pickling，在其他语言中也被称之为serialization，marshalling，flattening等等，都是一个意思。
序列化之后，就可以把序列化后的内容写入磁盘，或者通过网络传输到别的机器上。

反过来，把变量内容从序列化的对象重新读到内存里称之为反序列化，即unpickling。

Python提供两个模块来实现序列化：cPickle和pickle。这两个模块功能是一样的，区别在于cPickle是C语言写的，速度快，pickle是纯Python写的，速度慢，跟cStringIO和StringIO一个道理。用的时候，先尝试导入cPickle，如果失败，再导入pickle：

try:
    import cPickle as pickle
except ImportError:
    import pickle

两个例子：

>>> d = dict(name='Bob', age=20, score=88)
>>> pickle.dumps(d)

"(dp0\nS'age'\np1\nI20\nsS'score'\np2\nI88\nsS'name'\np3\nS'Bob'\np4\ns."

pickle.dumps()方法把任意对象序列化成一个str，然后，就可以把这个str写入文件。或者用另一个方法pickle.dump()直接把对象序列化后写入一个file-like Object：

>>> f = open('dump.txt', 'wb')
>>> pickle.dump(d, f)
>>> f.close()

看看写入的dump.txt文件，一堆乱七八糟的内容，这些都是Python保存的对象内部信息。

当我们要把对象从磁盘读到内存时，可以先把内容读到一个str，然后用pickle.loads()方法反序列化出对象，也可以直接用pickle.load()方法从一个file-like Object中直接反序列化出对象。我们打开另一个Python命令行来反序列化刚才保存的对象：

>>> f = open('dump.txt', 'rb')
>>> d = pickle.load(f)
>>> f.close()
>>> d
{'age': 20, 'score': 88, 'name': 'Bob'}

当然，这个变量和原来的变量是完全不相干的对象，它们只是内容相同而已。
Pickle的问题和所有其他编程语言特有的序列化问题一样，就是它只能用于Python，并且可能不同版本的Python彼此都不兼容，因此，只能用Pickle保存那些不重要的数据，不能成功地反序列化也没关系。

JSON

要在不同的编程语言之间传递对象，就必须把对象序列化为标准格式，比如XML，但更好的方法是序列化为JSON，因为JSON表示出来就是一个字符串，可以被所有语言读取，也可以方便地存储到磁盘或者通过网络传输。JSON不仅是标准格式，并且比XML更快，而且可以直接在Web页面中读取，非常方便。

JSON表示的对象就是标准的JavaScript语言的对象，JSON和Python内置的数据类型对应如下：

JSON类型 Python类型
{} dict
[] list
"string" 'str'或u'unicode'
1234.56 int或float
true/false True/False
null None

Python内置的json模块提供了非常完善的Python对象到JSON格式的转换：

>>> import json
>>> d = dict(name='Bob', age=20, score=88)
>>> json.dumps(d)
'{"age": 20, "score": 88, "name": "Bob"}'

dumps()方法返回一个str，内容就是标准的JSON。类似的，dump()方法可以直接把JSON写入一个file-like Object。

要把JSON反序列化为Python对象，用loads()或者对应的load()方法，前者把JSON的字符串反序列化，后者从file-like Object中读取字符串并反序列化：

>>> json_str = '{"age": 20, "score": 88, "name": "Bob"}'
>>> json.loads(json_str)
{u'age': 20, u'score': 88, u'name': u'Bob'}

有一点需要注意，就是反序列化得到的所有字符串对象默认都是unicode而不是str。由于JSON标准规定JSON编码是UTF-8，所以我们总是能正确地在Python的str或unicode与JSON的字符串之间转换。

JSON进阶

对Python的类如定义Student类，进行序列化：

import json

class Student(object):
    def __init__(self, name, age, score):
        self.name = name
        self.age = age
        self.score = score

s = Student('Bob', 20, 88)
print(json.dumps(s))

运行代码，毫不留情地得到一个TypeError：

Traceback (most recent call last):
  ...
TypeError: <__main__.Student object at 0x10aabef50> is not JSON serializable

错误的原因是Student对象不是一个可序列化为JSON的对象。

仔细看看dumps()方法的参数列表，可以发现，除了第一个必须的obj参数外，dumps()方法还提供了一大堆的可选参数：

https://docs.python.org/2/library/json.html#json.dumps

这些可选参数就是让我们来定制JSON序列化。前面的代码之所以无法把Student类实例序列化为JSON，是因为默认情况下，dumps()方法不知道如何将Student实例变为一个JSON的{}对象。

可选参数default就是把任意一个对象变成一个可序列为JSON的对象，我们只需要为Student专门写一个转换函数，再把函数传进去即可：

def student2dict(std):
    return {
        'name': std.name,
        'age': std.age,
        'score': std.score
    }

print(json.dumps(s, default=student2dict))

这样，Student实例首先被student2dict()函数转换成dict，然后再被顺利序列化为JSON。

不过，下次如果遇到一个Teacher类的实例，照样无法序列化为JSON。我们可以偷个懒，把任意class的实例变为dict：

print(json.dumps(s, default=lambda obj: obj.__dict__))

同样的道理，如果我们要把JSON反序列化为一个Student对象实例，loads()方法首先转换出一个dict对象，然后，我们传入的object_hook函数负责把dict转换为Student实例：

def dict2student(d):
    return Student(d['name'], d['age'], d['score'])

json_str = '{"age": 20, "score": 88, "name": "Bob"}'
print(json.loads(json_str, object_hook=dict2student))

运行结果如下：

<__main__.Student object at 0x10cd3c190>

打印出的是反序列化的Student实例对象。

小结

Python语言特定的序列化模块是pickle，但如果要把序列化搞得更通用、更符合Web标准，就可以使用json模块。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 202,723评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,080评论 2赞 379
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 149,604评论 0赞 335
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,440评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,431评论 5赞 364
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,499评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,893评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,541评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,751评论 1赞 296
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,547评论 2赞 319
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,619评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,320评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,890评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,896评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,137评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,796评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,335评论 2赞 342

python知识复习(一)--(磁盘)IO编程

JSON

JSON进阶

小结

推荐阅读更多精彩内容