最近在线上发现了一个很奇怪的现象,联合查询没有命中索引。通过网上查找一些资料,有人建议查看所关联的字段的数据格式是不是一致,通过排查发现了数据库的两个表的character 以及collation设置的不同。
ALTER TABLE table MODIFY colunm varchar(50) CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci NOT NULL DEFAULT '' COMMENT 'comment';
更改后在联表查询数据库报错 Illegal mix of collations 。
下面简单介绍一下mysql 的 collation,内容来自于mysql官网的相关介绍 https://dev.mysql.com/doc/refman/5.7/en/charset-general.html。
http://dev.mysql.com/doc/en/charset-collation-effect.html
http://dev.mysql.com/doc/en/charset-collation-expressions.html
stackoverflow 上的资料
https://stackoverflow.com/questions/3029321/troubleshooting-illegal-mix-of-collations-error-in-mysql
Character Sets是字符和编码。collation是编码的校验规格,包括比较和排序。举例说就是 字符串AB ,对用的字符就是AB, 编码是01。collation就是对01的比较。如果collation是大小写不敏感的,那么首先先把ab 和AB等同对待,然后比较编码
每一种 Character Sets 对应至少一种collation
两种不同的Character Sets 不会有相同的collation
当一种Character Sets 对应不同的校验规则的时候,找到一个最合适的规则可能就不是那么容易。由此就引入了字符集的概念,使不同的效验规则都对应特定的字符集,这样既是规则不同,也能选用一个相对合乎情理的规则。
字符串就有字符集的属性,字符集包含两种,UNICODE和
ASCII。ASCII是UNICODE的子集,mysql就可以自此基础上作对应的转换,如果没有合法的转换,就会抛出“illegal mix of collations” 的异常。
然后介绍一下Collation的命名规范
到此就可以看出来 Illegal mix of collations 的异常,是和字符集相关。
如果有确定的交验规则,需要验证比较规则是否能够通用。
有两个重要的原则
- 如果都是Unicode或者都不是Unicode 抛出异常。
- 如果一方是Unicode,一方不是,则按照Unicode比较
最后的修改方式也比较粗暴,修改成相同的collation,问题解决了。