为什么会有Base64编码呢?因为有些网络传送渠道并不支持所有的字节,例如传统的邮件只支持可见字符的传送,像ASCII码的控制字符就不能通过邮件传送。这样用途就受到了很大的限制,比如图片二进制流的每个字节不可能全部是可见字符,所以就传送不了。最好的方法就是在不改变传统协议的情况下,做一种扩展方案来支持二进制文件的传送。把不可打印的字符也能用可打印字符来表示,问题就解决了。
Base64 编码是网络上最常见的用于传输8 bit 字节码的编码方式之一,Base64 利用 6 bit 字符来表达原本的8 bit 字符,是一种基于64个可打印字符来表示二进制数据的方法。
编码规则
Base64 编码要求把每三个8 bit 的字节转换为四个6 bit 的字节(38 = 46 = 24),然后把6 bit 再添两位高位0,组成四个8 bit 的字节,因此,转换后的字符串理论上将要比原来的长1/3。
Base64 编码的规则:
1.把3个字节变成4个字节;
2.每76个字符加一个换行符;
3.最后的结束符也要处理。
示例
转换前:11111111, 11111111, 11111111 (二进制)
转换后:00111111, 00111111, 00111111, 00111111 (二进制)
上面的三个字节是原文,下面的四个字节是转换后的Base64编码,其前两位均为0。转换后,我们用一个码表来得到我们想要的字符串(也就是最终的Base64编码),这个表是这样的:
Base64 的编码过程
Base64 编码过程的逻辑是,一般将源数据3个字节为一组进行处理。
As a short answer : The 65th character ("=" sign) is used only as a complement in the final process of encoding a message.
You will not have a '=' sign if your string has a multiple of 3 characters number, because Base64 encoding takes each three bytes (8bits) and represents them as four printable characters in the ASCII standard.
Details :
(a) If you want to encode
ABCDEFG <=> [ABC] [DEF] [G
Base64 will deal(producing 4 characters) with the first block and the second (as they are complete) but for the third it will add a double == in the output in order to complete the 4 needed characters.Thus, the result will be QUJD REVG Rw== (without space)
(b) If you want to encode...
ABCDEFGH <=> [ABC] [DEF] [GH
Similarly, it will add just a single = in the end of the output to get 4 characters the result will be QUJD REVG R0g= (without space)
字符长度为能被3整除时,比如Man:
M a n
ASCII: 77 97 110
8bit字节: 01001101 01100001 01101110
6bit字节: 010011 010110 000101 101110
十进制: 19 22 5 46
对应编码: T W F u
- "M"、"a"、"n"的ASCII值分别是77、97、110,对应的二进制值是01001101、01100001、01101110,将它们连成一个24位的二进制字符串010011010110000101101110。
- 将这个24位的二进制字符串分成4组,每组6个二进制位:010011、010110、000101、101110。
- 在每组前面加两个00,扩展成32个二进制位,即四个字节:00010011、00010110、00000101、00101110。它们的十进制值分别是19、22、5、46。
- 根据上表,得到每个值对应Base64编码,即TWFu。
字符串长度不能被3整除时,比如Lucy:
L u c y
ASCII: 76 117 99 121
8bit字节: 01001100 01110101 01100011 01111001 00000000 00000000
6bit字节: 010011 000111 010101 100011 011110 010000 000000 000000
十进制: 19 7 21 35 30 16 (补0) (补0)
对应编码: T H V j e Q = =
如果要编码的字节数不能被3整除,最后会多出1个或2个字节,那么可以使用下面的方法进行处理:
先使用0字节值在末尾补足,使其能够被3整除,然后再进行Base64的编码。在编码后的Base64文本后加上一个或两个=号,代表补足的字节数。也就是说,当最后剩余一个八位字节(1个byte)时,最后一个6位的Base64字节块有四位是0值,最后附加上两个等号;如果最后剩余两个八位字节(2个byte)时,最后一个6位的base字节块有两位是0值,最后附加一个等号。
因为,Base64 将三个字节转化成四个字节,因此Base64编码后的文本,会比原文本大出三分之一左右。
解码过程
解码就是编码的逆过程,对于例2中的rbq2,把其二进制位连接上再重组得到三个8位值,得出原码。
应用场景
Base64编码带来的意义是所有的二进制文件,都能以此转化为可打印的文本编码,因此可以应用在以下场景中:
- 电子邮件的附件
电子邮件的附件一般也作Base64编码的,因为一个附件数据往往是有不可见字符的。对证书来说,特别是根证书,一般都是作Base64编码的,因为它要在网上被许多人下载。
- 文本传输
一个xml当中包含另一个xml数据,此时如果将xml数据直接写入显然不合适,将xml进行适当编码存入较为方便,事实上xml当中的字符一般都是可见字符(0-127之间),但是由于中文的存在,可能存在不可见字符,直接将字符打印在外层xml的数据中显然不合理,那么怎么办呢?可以使用base64进行编码,然后存入xml,解码反之其实还有个办法,将byte的值写在xml当中,空格或者,分开,这样也可以将byte数据传入,不过这样更浪费空间,并且不易保存.另一个,
- HTTP协议
http协议当中的key value字段,必须进行URLEncode 不然出现的等号可能使解析失败 空格也会使http请求解析出现问题,比如 请求行就是以空格来划分的 POST /guowuxin/hehe HTTP/1.1
- 电子邮件(SMTP协议)
有些文本协议不支持不可见字符的传递,只能用大于32的可见字符来传递信息(协议规定)
- 图片base64编码
前端在实现页面时,对于一些简单图片,通常会选择将图片内容直接内嵌在页面中,避免不必要的外部资源加载,增大页面加载时间,但是图片数据是二进制数据,该怎么嵌入呢?绝大多数现代浏览器都支持一种名为 Data URLs 的特性,允许使用Base64对图片或其他文件的二进制数据进行编码,将其作为文本字符串嵌入网页中。
注意:
Base64编码主要用在传输、存储、表示二进制领域,不能算得上加密,只是无法直接看到明文,不建议用base64编码用于加密。
中文有多种编码(比如:utf-8、gb2312、gbk等),不同编码对应Base64编码结果都不一样。
参考文章:
https://www.cnblogs.com/jesse131/p/11529958.html
https://blog.csdn.net/makenothing/article/details/81155960
https://stackoverflow.com/questions/6916805/why-does-a-base64-encoded-string-have-an-sign-at-the-end