文本
- 纯文本:只能保存单一的内容,无法保存与内容无关的东西(字体、颜色、图片...)
纯文本在计算机底层也会转化为位二进制保存
- 编码:将字符转换为二进制码
- 解码:将二进制码转换为字符
编码和解码时采用的规则成为字符集
常见的字符集:
ASCII
: 美国人常用编码,使用7位来对美国常用的字符进行编码,包含128个字符
ISO-8859-1
:欧洲的编码,使用8位,包含256个字符
GB2312
GBK
:国标码,中国的编码
Unicode
:万国码,包含世界上所有的语言和符号,编写程序时一般都会使用Unicode编码,Unicode编码有多种实现,UTF-8(1-5个字节) UTF-16(2-4) UTF-32(4)最常用的就是UTF-8乱码:检查字符集是否正确
- 富文本:可以保存文本以外的内容(Word文档)