字符编码,又称字集码。字符编码是把字符集中的字符编码为指定集合中某一对象,以便文本在计算机中存储和通过通信网络的传递。
字符编码有很多标准,包括西欧标准、DOS字符集、亚洲字符集。
字符编码
西欧标准
- ISO-8859-1
- ISO-8859-5
- ISO-8859-6
- ISO-8859-7
- ISO-8859-11
- ISO-8859-15
- ISO/IEC 646
DOS字符集(又称IBM代码页)
- CP437
- CP737]
- CP850
- CP852
- CP855
- CP857
- CP858
- CP860
- CP861
- CP863
- CP865
- CP866
- CP869
Windows字符集
- Windows-1250
- Windows-1251
- Windows-1252
- Windows-1253
- Windows-1254
- Windows-1255
- Windows-1256
- Windows-1257
- Windows-1258
亚洲字符集
中国大陆
- GB 2312
- EUC
- GBK
- GB 18030
港澳台
- 大五码
- 香港增补字符集
- 中国信息交换码
- 中文标准交换码
- EUC
日本
- ISO/IEC 2022
- Shift JIS
- EUC
朝鲜半岛
- EUC
- KOI8-R
- KOI8-U
- KOI7
- MIK
越南
- 越南信息交换标准代码
印度
- 印度文字信息交换码
Unicode
- Unicode
- UTF-7
- UTF-8
- UTF-16
- UTF-32
字符转换工具
跨平台
- 网页浏览器–大多数现代的网页浏览器都具有此功能。一般是在菜单"查看"(View)/"字符编码"(Character Encoding)
- iconv –程序与编程API,用于字符编码转换
- convert_encoding.py –基于Python的转换工具.
- decodeh.py –用于启发性猜测编码方案的算法与模块.
- International Components for Unicode –一套C语言与Java语言的开源库,由IBM提供,用于Unicode等多语言编码的转换、实现.
- chardet – Mozilla的编码自动检测代码的Python语言实现.
- 新版本的Unix命令File做字符编码的检测.(cygwin与mac都有此命令)
Linux
- recode
- utrac – 将整个文件内容从一种字符编码转换到另外一种
- cstocs
- convmv –转换文件名.
- enca –分析编码模式.
微软
Encoding.Convert – .NET API
MultiByteToWideChar/WideCharToMultiByte – Windows API
cscvt –转换工具
enca –分析编码方法