python3编码总结

关于python3的编码类型，到底是怎么编码的，一直使我比较疑惑，在看了网上很多帖子之后，经过自己尝试与实验，将自己的总结写在下面，一是当做一次笔记，二是希望网友们能指正。仅供参考，欢迎指正，谢谢！！！

一、编码类型

首先，我们需要明白的是计算机只能识别0、1这种二进制的信息，再说字节，字节是计算机的最小处理单元。一个字节占 8 位，也就是说在计算机中最小可以处理 8 位的二进制数。同时，在计算机上存储的数据也是以字节为单位的信息，在读取计算机上的信息时就是读取的二进制的这些0、1组成的数字信息。

关于各种编码类型，常用的有 Ascii、UTF-8、GBK、GB2312以及Unicode 。我们从Ascii理解他们是怎么来的。

因为计算机只能识别二进制数，那么如何使计算机能够表示字母以及数字等形式呢？于是想到了建立一个标准码来翻译成计算机能识别的二进制数，形成一一对应，那么输入一个字符，那么就能计算机就可以转变为二进制，从而理解。同时，计算机的最小处理单元是 8 位的二进制数，因此这个标准码就占用了 8 位。那么就可以有2的8次方种0、1组合来表示常用的英文字符，然而标准的 ascii 没有用满这 8 位，只用了 7 位。之后又由于制表符、数学符号等里面并没有，这张表在 128 个数的基础上扩展到了 256 个，即 “扩展 ascii”。

在之后，256 个字符根本无法表示全人类的语言，于是进一步扩展到了 2 个字节，也是就是2的16次方，这也是中文为什么占两个字符，而英文字符只需要占一个，也就产生了GBK等编码方式，其实就是中文字与0、1排列组合的映射表使计算机能够理解。

在之后由于世界各种的编码方式不同，不利于统一交流，于是出现了Unicode、utf8等格式。

简单理解就是为了使计算机处理英文字符，产生了ASCII码；为了处理中文字符，产生了GB2312；为了处理各国字符，产生了Unicode；为了提高Unicode存储和传输性能，产生了UTF-8，它是Unicode的一种实现形式。

同时，各种编码方式都对应一张0、1组合的二进制表，以此保存信息，单位为字节。

二、python3的编码

1.python3中文本字符串str和字节字符串是严格区分的

首先理解encode（encoding）与decode的定义：

编码(encode)：将Unicode字符串（中的代码点)转换特定字符编码对应的字节串的过程和规则

解码(decode)：将特定字符编码的字节串转换为对应的Unicode字符串(中的代码点)的过程和规则

其次，在python3中显示的字符串是以unicode进行编码的，要想转变为其他编码格式需要对其进行encode（）编码，下面请看示例：

表一

由上图看出：

（1）a是一个字符串，其编码格式是unicode，类型为str字符串，但是将其进行编码成utf8格式，会出现开头为b的字节字符串，其类型为 bytes 故可以发现两者是不同的。

（2）字符串str本身没有decode这个方法，因为其本身就是unicode的

（3）将a先解码在编码就可以变为原来的字符串，说明，在python3中编码必须经过unicode进行转化

2.关于pthon3中对于文件的读取写入与储存

2.1 首先定义一个“1.txt”，内容为"哈哈123abc“”，我们来看一下，python3是以什么方式读取写入文件的。在这里先说一下如何看txt的编码格式以及如何修改txt文件的编码格式，即打开txt 》点击做上方文件》点击另存为》会出现下方的图》可以根据需要选择编码也可以查看编码类型

注：显示的为当下的编码类型

表二

2.2 其次，我们来看一下读入文件的编码方式：

2.2.1在txt为utf8下：

表三

由上图可知;

（1）所谓乱码本质上是系统（windows默认）编码与所提供字符的编码不一致导致的（windows默认ANSI），ansi在世界由地方不同而不同，在简体中文Windows操作系统中，ANSI 编码代表 GBK 编码；在繁体中文Windows操作系统中，ANSI编码代表Big5；在日文Windows操作系统中，ANSI 编码代表 Shift_JIS 编码，等等。

（2）本人系统是简体中文Windows，在不明确以什么编码方式打开下，会显示出乱码，且乱码在明确以utf8下是一致的，在表明是gbk下是乱码一致。故可知python3是以ANSI读取存在系统的字节信息，然后内部自动解码成unicode。之前说过python是区分字符unicode和字节字符（utf8\gbk等）的，在此并不是显示的字节类型，而是字符串str，故encoding的作用是指示python以什么方式解码所要读取信息，使之成为unicode。

注：已有记事本文件（非空），转码 UTF-8，复制到pycharm中，在开始位置打印结果会出现\ufeff

2.2.2在txt为gbk(ANSI)下：

表三

由上图可知：

（1）在gbk格式下的txt文件，在不指明编码方式下就可以正确读取为字符串，印证了上述看法

（2）在指明为utf8下会报错，但在上面未报错，只是出现乱码，总之不能正确解码

2.3 最后，来看一下python保存文件的编码格式（仍以txt为例）

表四

表五

由上图可知：

（1）默认是以ANSI进行保存，在使用encoding（）指明编码方式下，会使用指示的方式

（2）说明在python3中，会自动将unicode编码输出，encoding的作用很大

2.4 来看一下pythons自己的 .py文件是什么格式

Python程序时会指定工程编码和文件编码为UTF-8，Python代码被保存到磁盘时就会被转换为UTF-8编码对应的字节（encode过程）后写入磁盘。

当执行Python代码文件中的代码时，Python解释器在读取Python代码文件中的字节串之后，需要将其转换为UNICODE字符串（decode过程）之后才执行后续操作。

如图：

表六

由此可知 .py文件是以utf8格式进行保存的，即unicode格式是python在使用时将其他格式解码生成操作，最后输出时，会自动按要求或者默认格式编码。

三. 关于网页爬取编码 r.text 与 r.content

对requests获取的原始数据，有三种获取形式：

一个是r.content（万能，但须解码）一个是r.text 一个是resp.json()

text -- 审查元素中的全部，类型 str （直接表示为unicode）

content -- 以b开头的审查元素中的全部内容，类型 byte(含有编码形式的，故有时需要先解码才能正常显示文本，图片则不需要解码)

json() -- 是针对json格式数据，可以直接生成字典进行数据提取

对于网页数据的爬取，也是需要编码格式的：

（1）

表七

这是慕课上嵩老师所写的一个小的获取网页的代码，其中需要r.encoding 要正确的获得。不过现在网页很多都是utf8写的，即使不使用encoding，一般也能正确获取。

（2）关于 content 获取二进制的形式，如果需要变为text 这种获取的格式，可以使用 r.content.decode('utf-8')

总结：

（1）python以声明的编码方式读取文件字节（默认系统gbk）之后自动解码为unicode,显示为字符串，故字符串无decode用法。但是若将字符串编码为字节字符串（有编码格式的）再变为原字符串则需先decode再encode

（2） windows系统下，无论是python还是其他默认保存与读取为gbk格式，除非在保存时指定编码方式，encoding=utf8

（3）在python中，从网上获取r.text类型为str（unicode）无decode，但是r.content是二进制形式（带编码类型）需先解码才可以==text

（4）爬虫中的尝试编码格式r.encoding = r.apparent_encoding 使得返回的内容解码正确（命令要打正确）才能在python中变为unicode

上面如果有什么逻辑错误或者理解错误的地方，请大家指正，感谢！！！

参考文献：

https://www.cnblogs.com/zhangqigao/p/6496172.html

https://www.cnblogs.com/laolv/p/7397429.html

https://blog.csdn.net/u014297175/article/details/40507523 # 二进制、字节、编码的关系

http://www.runoob.com/python/att-string-encode.html #python encode的方法

https://www.cnblogs.com/geekard/archive/2012/10/04/python-string-endec.html

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,324评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,303评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,192评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,555评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,569评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,566评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,927评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,583评论 0赞 257
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,827评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,590评论 2赞 320
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,669评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,365评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,941评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,928评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,159评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,880评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,399评论 2赞 342