开门见山,先提出问题和解决方案
问题:Incorrect string value: '\xF0\x9F\x99\x82' for column 'device_name' at row 1; nested exception is java.sql.SQLException: Incorrect string value: '\xF0\x9F\x99\x82' for column 'device_name' at row 1
这个是java开发人员通过向数据库插入中文或者表情符号时一个经典的错误。网上提供的原因通常是将数据库的编码为gbk或其他非utf-8编码,解决方案为将数据库编码改为utf-8
set character_set_client = utf8;
set character_set_server = utf8;
set character_set_connection = utf8;
set character_set_database = utf8;
set character_set_results = utf8;
set collation_connection = utf8_general_ci;
set collation_database = utf8_general_ci;
set collation_server = utf8_general_ci;
但除此之外,还有两个原因会导致这个错误的发生:
原因1:
tomcat编码和数据库编码不一致,windows下tomcat默认编码为gbk,若数据库编码为utf-8,会导致中文无法插入
解决方案:
Tomcat启动参数中,VM Options 增加-Dfile.encoding=UTF-8。
原因2:
数据库字段编码utf8_general_ci,这种编码仅支持3字节utf-9字符,插入的内容中含特殊符号及表情等四字节utf-8字符
解决方案:
show full columns from {table} 查看字段编码,将需要插入表情的字符串编码改为utf8mb4_unicode_ci
语句范例
ALTER TABLE tb_case MODIFY COLUMN content VARCHAR(512) CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci;
ALTER TABLE tb_case MODIFY COLUMN LAST_CHAT_CONTENT VARCHAR(512) CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci;
ALTER TABLE tb_chat MODIFY COLUMN content VARCHAR(512) CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci;
ALTER TABLE ofoffline MODIFY COLUMN stanza TEXT CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci;
借着这个机会,复习了编码的相关知识,在这里分享一下心得。
首先介绍一下遇到这个问题的场景和解决过程,某日在排查错误日志时发现,一张表的device_name字段有出现上述Incorrect string value的错误,将代码部署在本地进行调试时,中文和表情的错误率却高达100%,同样的中文,在本地报错的,在测试环境和生产环境正常。
于是排查本地环境和测试环境的区别,首先想到编码问题,检查确认了IDE编码为utf-8,数据库的编码为utf-8
???这是什么情况,于是尝试将\xC9\xE8\xB1\xB8 转换成中文是否正确,结果发现无法使用utf-8编码。难道这是gbk编码,尝试了一下发现果然使用gbk编码可以转换为中文,但我IDEA的编码已经全部改成utf-8了啊0 0?网上一搜,发现是tomcat编码的问题。那生产环境的编码错误又是什么原因呢,\xF0\x9F\x99\x82通过utf-8解码得到一个emoji表情,查看device_name字段编码为utf8_general_ci,不支持4字节utf8,将其改为utf8mb4_unicode_ci后问题解决。
然后对问题中的相关概念做了个总结
1.字节和字符
众所周知,计算机世界是个二进制的世界,1字节(byte)= 8比特bit。我们看到的中文和表情是字符通过规定的编码方式转换为几个字节后存储的。
2. \xC9\xE8\xB1\xB8 的含义
对于这样的字符串,其实是用两个十六进制数字来表示8bit即一个字节,是属于编码后的字节串(字节数组),从这个串中只能得出这是4个字节,无法得知其编码方式和代表的中文或表情。
3.编码和解码
中文和表情的传输是一个编码和解码的过程。假设设定编码为utf-8,在传输“设备”这个中文词时,实际上传输的时这个词编码后的四个字节
\xC9\xE8 设 \xB1\xB8备(16进制表示,\xC9转换为2进制是11001001,一个字节)。若发送端和接收端编码不同,若接收端(如数据库)尝试以gbk对 \xC9\xE8 进行解码,则无法获得正确的字符报错。
4.IDE编码、数据库编码和Tomcat编码
IDE编码和Tomcat编码不等同,需要保持一致,避免异常。IDE编码决定java源码的编码,与数据的编码不一致会导致插入数据时编码异常
5.utf8和utf8mb4
utf8 是 Mysql 中的一种字符集,只支持最长三个字节的 UTF-8字符,utf8mb4支持4个字节,对于部分生僻字和表情,应该使用utf8mb4