写在前面
最近在学习J2EE的一些基础知识,找了一些学习资料,深感Java相关学习内容的纷繁复杂,迫切需要理出一条脉络,后来我就找到了这个:3y的github。
里面有很多的文章写的很不错,包括一些知识和一些方法论,可以很好地帮助构建知识体系,有兴趣的小伙伴也可以参考哈。
举个例子
response.getWriter().write("中文内容");
这样的代码会在浏览器/Postman中看到 ?? 的结果,这就是一个很常见的乱码问题了。
问题根源
通过上图我们可以看到Tomcat服务器在处理请求时的一个流程和结构,通过Tomcat的Connector线程池,将请求根据URL分发到对应的Host(域名)和Context上(Web应用)。Web应用内再分发到具体的Servlet上。
而从浏览器传输到服务器时,需先将中文编码为字节序列,而Tomcat服务器再将字节序列解码为字符串。Tomcat默认使用的编码格式是ISO 8859-1 ,并不支持中文;而我们在浏览器中一般使用UTF-8编码格式以支持中文。
编码方式
UTF-8
Unicode:指字符集,为每一个“字符”分配一个唯一的ID(码位);例如“知”的码位是 30693,记作 U+77E5(30693 的十六进制为 0x77E5)。
UTF-8:指编码规则,定义了如何将一个Unicode中的ID(码位)编码为字节序列;例如将“知”的码位U+77E5编码为字节序列E79FA5。
UTF-8使用1-4个字节为Unicode进行编码,一般汉字用3-4个字节进行编码;由于UTF-8编码后的字节序列为可变长度,所以更省空间;
ISO 8859-1
为一种使用单字节进行编码的编码规则,支持部分欧洲使用的语言,但是并不支持中文;
解决方案
Servlet Response 输出
此时需要设置response的编码规则:response.setContentType("text/html;charset=UTF-8");
该语句将做两件事:
-
response.setCharacterEncoding("UTF-8")
设置Tomcat对于Response的编码规则改为UTF-8 -
response.setHeader("Content-Type","text/html;charset=UTF-8");
设置浏览器的内容格式和解码方式
Servlet Request 输入
- Post参数:通过
request.setCharacterEncoding("UTF-8")
即可设置Tomcat解码方式为UTF-8,即可正常解出中文 - Get参数:需要注意Get的参数在URL中而不在HTTP Body中,所以不能通过和Post一样的方式解决;好在>=Tomcat 8.0时,默认的URI解码方式已经为UTF-8了,所以不用特殊处理了(见参考的第一条)
注意:对于Tomcat <8.0时,解决Get参数的乱码问题需要进行手动解码或者修改Tomcat配置,较为复杂,所以提交数据尽量使用post。