我们开发中常会遇上将NSData转换为NSString,或通过NSJSONSerialization解析JSON的场景,一旦NSData中包含非法的UTF-8编码,那么结果将是返回nil,但这样的结果并不符合我们预期,因为可能这其中仅仅只是一个编码错误,我们更希望将错误编码丢弃或替换为错误字符.
在Google上找了一圈,有人也实现了这样的方法,但个人觉得写得不够严谨,容错性也不太好,索性自己写一个吧,严格按照RFC3629的标准.
UTF-8是一种变长的编码,针对不同长度的字节有固定的格式,在RFC3629规范中最多只能四个字节,且对范围有区间有要求,更多相关介绍请跳转维基百科UTF-8词条(跳转地址):
1字节0xxxxxxx
2字节110xxxxx10xxxxxx
3字节1110xxxx10xxxxxx10xxxxxx
4字节11110xxx10xxxxxx10xxxxxx10xxxxxx
按照这样的规则写了一个NSData的扩展方法,见代码:
@implementationNSData(UTF8)
- (NSData*)UTF8Data
{
//保存结果
NSMutableData*resData = [[NSMutableDataalloc] initWithCapacity:self.length];
//无效编码替代符号(常见 � □ ?)
NSData*replacement = [@"�"dataUsingEncoding:NSUTF8StringEncoding];
uint64_t index =0;
constuint8_t *bytes =self.bytes;
while(index
{
uint8_t len =0;
uint8_t header = bytes[index];
//单字节
if((header&0x80) ==0)
{
len =1;
}
//2字节(并且不能为C0,C1)
elseif((header&0xE0) ==0xC0)
{
if(header !=0xC0&& header !=0xC1)
{
len =2;
}
}
//3字节
elseif((header&0xF0) ==0xE0)
{
len =3;
}
//4字节(并且不能为F5,F6,F7)
elseif((header&0xF8) ==0xF0)
{
if(header !=0xF5&& header !=0xF6&& header !=0xF7)
{
len =4;
}
}
//无法识别
if(len ==0)
{
[resData appendData:replacement];
index++;
continue;
}
//检测有效的数据长度(后面还有多少个10xxxxxx这样的字节)
uint8_t validLen =1;
while(validLen < len && index+validLen
{
if((bytes[index+validLen] &0xC0) !=0x80)
break;
validLen++;
}
//有效字节等于编码要求的字节数表示合法,否则不合法
if(validLen == len)
{
[resData appendBytes:bytes+index length:len];
}else
{
[resData appendData:replacement];
}
//移动下标
index += validLen;
}
returnresData;
}
@end
在Github上的链接地址:https://github.com/tanhaogg/THCategory