遇到问题,在系统界面搜索"MZ-0156"搜索不到商品,在navicat数据库直接搜索却可以搜索到。
可以看到数据库里面是有数据的, 而且为了确认是不是空格的问题,我还特别复制出来看是不是带有空格。
这时我注意到数据库的搜索条件是“包含”。把它改成“=”。出来的结果是:
明明长得一模一样的两个字符串,为什么会出现这种问题呢?'MZ-0156'和'MZ-0157'有什么区别?难道是数据库的bug?抱着试一试的心态,我把数据库里的两个数据拿了出来,进行了json格式化:
再试试urlencode 编码:
$number1 = 'MZ-0156';
$number2 = 'MZ-0157';
//将字符串以URL编码,将需要转码的字符转为16进制,然后从右到左,取4位(不足4位直接处理),每2位做一位,前面加上%,编码成%XY格式。
dump(urlencode($number1));
dump(urlencode($number2));
结果:
居然多了一个看不见的字符在MZ-0156前面,而且还会跟着复制复制过来!
那么这个\u200b是什么字符呢?
在网上搜索到了结果,https://zh.wikipedia.org/wiki/%E9%9B%B6%E5%AE%BD%E7%A9%BA%E6%A0%BC
零宽空格(zero-width space, ZWSP)是一种不可打印的Unicode字符,
在Unicode中,该字符为U+200B 零宽空格 ,HTML:​
。
而且他还有家族成员:零宽连字 ,零宽不连字。
那么如何过滤零宽字符呢?
$str= str_replace("\xe2\x80\x8b", '', $str);
$str= str_replace("\xe2\x80\x8c", '', $str);
$str= str_replace("\xe2\x80\x8d", '', $str);
怎么写出零宽空白:
1、html:​ ;等
2、代码生成
$number1 = '"\u200B\u200CMZ-0156"';
dump(json_decode($number1));
exit;
零宽字符的应用:
https://forum.huawei.com/enterprise/zh/thread-448695.html
1、存储隐藏信息
2、秘密传达消息
3、在文章中添加隐藏水印
总结:可能大家有些字符串,是从别处直接拷贝而来,出现了“令人震惊”的现象时,怎么排序呢?
查看字符串的unicode/html/...编码