day7

文件操作与字符编码

1 字符编码

   计算机只认识0和1组成的二进制序列,因此任何文件中的内容(比如"hello","你好"这些字符串)要想被计算机识别或者想存储在计算机上都需要转换为二进制序列。那么字符与二进制序列怎么进行相互转换呢?于是人们尝试建立一个表格来存储一个字符与一个二进制序
列的对应关系。

  • 编码:将字符转换为对应的二进制序列的过程叫做字符编码
  • 解码:将二进制序列转换为对应的字符的过程叫做字符解码

1.1 字符编码的种类

  • ASCII码
       最早建立这个字符与十进制数字对应的关系的是美国,这张表被称为ASCII码(American Standard Code for Information Interface, 美国标准信息交换代码)。ASCII码是基于拉丁字母的一套电脑编程系统,主要用于显示现代英语和其他西欧语言。它被设计为用1个字节来表示一个字符,所以ASCII码表最多只能表示2^8=256个字符。实际上ASCII码表中只有128个字符,剩余的128个字符是预留扩展用的。


    ASCII码
  • GBK等各国编码
       随着计算机的普及和发展,很过国家都开始使用计算机。大家发现ASCII码预留的128个位置根本无法存储自己国家的文字和字符,因此各个国家开始制定各自的字符编码表,其中中国的的字符编码表有GB2312和GBK。
  • Unicode码(万国码)
       随着世界互联网的形成和发展,各国的人们开始有了互相交流的需要。但是这个时候就存在一个问题,每个国家所使用的字符编码表都是不同的。这个时候,人们希望有一个世界统一的字符编码表来存放所有国家所使用的文字和符号,这就是Unicode。Unicode又被称为 统一码、万国码、单一码,它是为了解决传统的字符编码方案的局限性而产生的,它为每种语言中的每个字符设定了
    统一并且唯一的二进制编码。Unicode规定所有的字符和符号最少由2个字节(16位)来表示,
    所以Unicode码可以表示的最少字符个数为2^16=65536。
  • UTF-8码
       为什么已经有了Unicode还要UTF-8呢?因为当时存储设备是非常昂贵的,而Unicode中规定所有字符最少要由2个字节表示。美国人认为像原来ASCII码中的字符用1个字节就可以了,因此决定创建一个新的字符编码来节省存储空间。UTF-8是对Unicode编码的压缩和优化,它不再要求最少使用2个字节,而是将所有字符和符号进行分类:
    • ascii码中的内容用1个字节保存
    • 欧洲的字符用2个字节保存
    • 东亚的字符用3个字节保存
    • ...

UTF-8是目前最常用,也是被推荐使用的字符编码。

2 字符串和字节序列的转换

2.1 字符串转字节序列

bytes = '张三'.encode() # encode默认按utf-8编码
print(bytes)
print(type(bytes))
bytes = '张三'.encode('utf-8')
print(bytes)
print(type(bytes))
bytes = '张三'.encode('gbk')
print(bytes)
print(type(bytes))

b'\xe5\xbc\xa0\xe4\xb8\x89'
<class 'bytes'>
b'\xe5\xbc\xa0\xe4\xb8\x89'
<class 'bytes'>
b'\xd5\xc5\xc8\xfd'
<class 'bytes'>

2.2 字节序列转字符串

bytes = b'\xe5\xbc\xa0\xe4\xb8\x89'
msg1 = bytes.decode()
print(msg1)
print(type(msg1))
msg1 = bytes.decode('utf-8')
print(msg1)
print(type(msg1))
msg1 = bytes.decode('gbk')
print(msg1)
print(type(msg1))

张三
<class 'str'>
张三
<class 'str'>
寮犱笁
<class 'str'>

3 文件

  • 文件的概念和作用:计算机的文件就是存储在硬盘上的数据。
  • 文件的存储方式:在计算机中文件是以二进制的方式保存在磁盘上的。
  • 文本文件和二进制文件:
    • 文本文件(字符串)
      • 可以使用文本编辑软件查看
      • 本质上还是二进制文件
      • 例如:python的源程序
    • 二进制文件
      • 保存的内容不是给人直接阅读的,而是提供给其他软件使用的
      • 例如:图片文件、音频文件、视频文件等等
      • 二进制文件不能使用文本编辑软件查看

3.1 文件的基本操作

3.1.1 操作文件的套路

在计算机中要操作文件的套路非常固定,一共包含三个步骤:

  1. 打开文件
  2. 读、写文件
    读:将文件内容读入内存
    写:将内存内容写入文件
  3. 关闭文件

3.1.2 操作文件的函数/方法

函数/方法 说明
open 打开文件并返回文件对象
read 将文件内容读取到内存
write 将指定内容写入文件
close 关闭文件
3.1.2.1 read()方法——读取文件
  • open()函数的第一个参数是要打开的文件名(文件名区分大小写)
    • 如果文件存在,返回文件操作对象
    • 如果文件不存在,会抛出异常
  • read()方法可以一次性读入并返回文件的所有内容
  • close方法负责关闭文件
    • 如果忘记关闭文件,会造成系统资源消耗,而且会影响到后续对文件的访问。
file = open("demo.txt")
print(file)

text = file.read()
print(text)

file.close()

<_io.TextIOWrapper name='demo.txt' mode='r' encoding='cp936'>
hello world

注:

  • open()函数默认在当前目录下查找文件
  • cp936表示的是GB2312编码
file2 = open("demo.txt")
print(file2)
text2 = file2.read()
print(text2)
file2.close()

<_io.TextIOWrapper name='demo.txt' mode='r' encoding='cp936'>
锘縣ello world

   上面代码发生的过程是将存储在文件中的字符串,读取到变量中(内存中),这里涉及的事情的先后顺序是这样的,理解这些非常重要:

  1. 最开始,我们用某个编辑软件(记事本程序),编辑了"hello world"四个字符,按 utf-8 编码方式保存到磁盘上,此处发生了编码过程(字符串--->字节)。
  2. 接下来我们通过上面的python代码,
    打开(open)文件,此时将存储在文件中的字符串(字节,二进制),读取到变量中(内存
    中),转换成字符串。这会发生一个解码过程(字节--->字符串)。Python默认按照GB2312打开文件进行解码,而默认的编码方式是UTF-8,编码和解码的方式不同,所以发生了乱码,甚至可能会造成错误,使文件无法打开。
    解决办法:
  • 指定文件的编码方式为ANSI(GB2312)
  • 指定文件的打开方式为UTF-8
file2 = open("demo.txt",encoding="utf-8")
print(file2)
text2 = file2.read()
print(text2)
file2.close()

<_io.TextIOWrapper name='demo.txt' mode='r' encoding='utf-8'>
hello world

3.1.2.2 write()方法——写入文件
# 打开文件
f = open("demo.txt", "w")
print(f)
f.write("hello hello!\n")
f.write("今天天气真好")

# 关闭文件
f.close()

f = open("demo.txt","r")
content = f.read()
print(content)
f.close()

<_io.TextIOWrapper name='demo.txt' mode='w' encoding='cp936'>
hello hello!
今天天气真好

   如果看到的的中文是乱码,确认是否是以记事本程序打开,如果是用pycharm打开,看到的是乱码,和读文件是同样的道理,python默认是以gb2312的方式将中文编码,写入到文件中,pycharm默认以utf-8格式解码打开,故而看到是乱码,要想以utf-8方式将中文编码,写入到文件中,需要:

f = open("abc.txt", "w",encoding='utf-8')

   注意:open()函数的第二个参数如果是"r"的话可以不写,其他情况都得写。python默认以只读的方式打开文件。

3.2 read(),readline(),readlines()区别与用法

  • read([size])方法:read([size])方法从文件当前位置起读取size个字符,若无参数size,则表示读取至文件结束为止,它的返回值为字符串对象
f = open("demo4.txt","r")
content = f.read(3)
print(content)
print(type(content))
f.close()

hel
<class 'str'>

  • readline()方法:从字面意思可以看出,该方法每次读出一行内容,所以读取时占用内存小,比较适合大文件,该方法返回一个字符串对象。
f = open("demo4.txt")
line = f.readline()
print(type(line))
while line:
    print(line,end="")
    line = f.readline()
f.close()

<class 'str'>
aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa
aaaaa
aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa
hello nihaoaaaaaaaaaaaaaaaaaaaaaa
aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa
aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa
haloa
xixixixi

&38195;&38195; 注意:print()默认以换行符结尾,而每一行最后都有一个换行符,所以默认导致两行中间有个空格。

  • readlines()方法:读取整个文件所有行,保存在一个列表(list)变量中,每行作为一个元素,但读取大文件会比较占内存。
f = open("demo4.txt")
line = f.readlines()
print(type(line))
print(line)
f.close()

['aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa\n', 'aaaaa\n', 'aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa\n', 'hello nihaoaaaaaaaaaaaaaaaaaaaaaa\n', 'aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa\n', 'aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa\n', 'haloa\n', 'xixixixi']

   注意到每行结尾处的换行符也被取到了。

  • 最简单、最快速的逐行处理文本的方法:直接for循环文件对象
f = open("demo4.txt")
for line in f:
    print(line,end="")
f.close()

aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa
aaaaa
aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa
hello nihaoaaaaaaaaaaaaaaaaaaaaaa
aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa
aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa
haloa
xixixixi

3.3 使用with open() as读写文件

   由于文件读写时都有可能产生IOError,一旦出错,后面的f.close()就不会调用。所以,为了保证无论是否出错都能正确地关闭文件,我们可以使用try ... finally来实现,但是比较麻烦。每次都这么写实在太繁琐,所以,Python引入了with语句来自动帮我们调用close()方法

with open('a.txt', 'r') as f:
    print(f.read())

这和try ... finally是一样的,但是代码更加简洁,并且不必调用f.close()方法。

3.4 文件指针

文件指针标记从哪个位置开始读取数据

  • 第一次打开文件时,通常 文件指针会指向文件的开始位置
  • 当执行了read方法后,文件指针会移动到读取内容的末尾

思考 如果执行了一次 read 方法,读取了所有内容,那么再次调用 read 方法,还能够获得到内容吗?
答案:不能。第一次读取之后,文件指针移动到了文件末尾,再次调用不会读取到任何的内容

控制文件指针移动方法:f.seek(offset,whence) offset代表文件指针的偏移量,单位是字节bytes;
whence代表参照物,有三个取值

  • 0:参照文件的开头
  • 1:参照当前文件指针所在的位置
  • 2:参照文件末尾

PS:快速移动到文件末尾f.seek(0,2) 强调:其中whence=1和whence=2只能在b 模式下使用
f.tell()函数可以得到当前文件指针的位置

with open('demo4.txt','rb') as f:
    f.seek(5,0) #指针在末尾,往前读5个字节
    print(f.read(3) .decode() )
    print(f.tell())
    f.seek(2,1)
    print(f.read(4).decode())
    print(f.tell())

aaa
8
aaaa
14

3.5 打开文件的方式总结

访问方式 说明
r 以只读方式打开文件。文件的指针将会放在文件的开头。这是默认模式。如果文件不存在则抛出异常。
w 打开一个文件只用于写入。如果该文件已存在则将其覆盖。如果该文件不存在,创建新文件。
a 打开一个文件用于追加。如果该文件已存在,文件指针将会放在文件的结尾。也就是说,新的内容将会被写入到已有内容之后。如果该文件不存在,创建新文件进行写入。
rb 以二进制格式打开一个文件用于只读。文件指针将会放在文件的开头。
wb 以二进制格式打开一个文件只用于写入。如果该文件已存在则将其覆盖。如果该文件不存在,创建新文件。
ab 以二进制格式打开一个文件用于追加。如果该文件已存在,文件指针将会放在文件的结尾。也就是说,新的内容将会被写入到已有内容之后。如果该文件不存在,创建新文件进行写入。
r+ 打开一个文件用于读写。文件指针将会放在文件的开头。如果文件不存在则抛出异常。
w+ 打开一个文件用于读写。如果该文件已存在则将其覆盖。如果该文件不存在,创建新文件。
a+ 打开一个文件用于读写。如果该文件已存在,文件指针将会放在文件的结尾。文件打开时会是追加模式。如果该文件不存在,创建新文件用于读写。
rb+ 以二进制格式打开一个文件用于读写。文件指针将会放在文件的开头。如果文件不存在则抛出异常。
wb+ 以二进制格式打开一个文件用于读写。如果该文件已存在则将其覆盖。如果该文件不存在,创建新文件。
ab+ 以二进制格式打开一个文件用于追加。如果该文件已存在,文件指针将会放在文件的结尾。如果该文件不存在,创建新文件用于读写
  • 已经确定要打开的文件已存在(如果不存在会报错)。
    • 只读文本文件?用r
    • 只读非文本文件(图片等)? 用rb
    • 要既读又写? 在后边添个+号增加权限, 用r+ 或者rb+
  • 不确定要打开的文件是否存在,如果该文件已存在则打开文件,并从开头开始编辑,即原有内容会被替换。如果该文件不存在,创建新文件。
    • 只写文本文件 ? 用w
    • 只写非文本文件(图片等)? 用wb
    • 要既读又写? 在后边添个+号增加权限, 用w+ 或者 wb+
  • 不确定要打开的文件是否存在,而且想要追加写入(不替换原有内容,新内容写入到已有内
    容后)。如果该文件不存在,创建新文件。
    • 只写文本文件 ? 用a
    • 只写非文本文件(图片等)? 用ab
    • 要既读又写? 在后边添个+号增加权限, 用a+或者ab+
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,236评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,867评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,715评论 0 340
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,899评论 1 278
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,895评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,733评论 1 283
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,085评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,722评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,025评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,696评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,816评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,447评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,057评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,009评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,254评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,204评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,561评论 2 343

推荐阅读更多精彩内容

  • 1、文件的介绍 文件:就是以硬盘为载体,存储计算机所产生的数据 学习文件的目的:把程序中所产生的数据保存到文件,能...
    黄晶_id阅读 755评论 0 0
  • 一、 概述 文件在windows系统中 分为三种: 文件、目录、未知。 在linux/unix 系统中分七种 bl...
    致自己_cb38阅读 160评论 0 0
  • 一、概述 文件在windows系统中 分为三种:文件、目录、未知。在linux/unix 系统中分七种block、...
    满天繁星_28c5阅读 316评论 0 0
  • 一、读书笔记回顾昨天的收获:什么是block、proc? block和proc是两种不同的东西, block有形无...
    柳辉阅读 371评论 0 0
  • 断断续续,读了不少木心的文字。此刻床头重翻,越过文字,思绪不安生地落在老先生的生平际遇上...... ...
    十三苏世阅读 248评论 0 3