Tagged Pointer
是内存管理中的一种优化方案,专门用来处理小对象,例如NSNumber
、NSDate
以及比较简短的NSString
等对象。
Tagged Pointer对象示例
以NSString
为例,通过几种不同的创建方式,看看什么情况下会被指定为Tagged Pointer
小对象。
-(void)testString{
//一、通过@""方式直接创建
NSString *str1 = @"a";
//二、通过WithString方式创建
NSString *str2 = [[NSString alloc] initWithString:@"b"];
NSString *str3 = [NSString stringWithString:@"c"];
//三、通过WithFormat方式创建
//1.字母+数字
//length<=9
NSString *str4 = [[NSString alloc] initWithFormat:@"d12345678"];
NSString *str5 = [NSString stringWithFormat:@"d12345678"];
//length>9
NSString *str6 = [[NSString alloc] initWithFormat:@"m123456789"];
NSString *str7 = [NSString stringWithFormat:@"m123456789"];
//2.汉字
NSString *str8 = [NSString stringWithFormat:@"哈"];
NSLog(@" ==== str1: %p -> %@", str1, [str1 class]);
NSLog(@" ==== str2: %p -> %@", str2, [str2 class]);
NSLog(@" ==== str3: %p -> %@", str3, [str3 class]);
NSLog(@" ==== str4: %p -> %@", str4, [str4 class]);
NSLog(@" ==== str5: %p -> %@", str5, [str5 class]);
NSLog(@" ==== str6: %p -> %@", str6, [str6 class]);
NSLog(@" ==== str7: %p -> %@", str7, [str7 class]);
NSLog(@" ==== str8: %p -> %@", str8, [str8 class]);
}
//打印结果
2020-12-13 22:36:28.558306+0800 内存管理[22620:86657016] ==== str1: 0x10803e0c0 -> __NSCFConstantString
2020-12-13 22:36:28.558500+0800 内存管理[22620:86657016] ==== str2: 0x10803e0e0 -> __NSCFConstantString
2020-12-13 22:36:28.558608+0800 内存管理[22620:86657016] ==== str3: 0x10803e100 -> __NSCFConstantString
2020-12-13 22:36:28.558710+0800 内存管理[22620:86657016] ==== str4: 0xef9db66a4e9a23af -> NSTaggedPointerString
2020-12-13 22:36:28.558841+0800 内存管理[22620:86657016] ==== str5: 0xef9db66a4e9a23af -> NSTaggedPointerString
2020-12-13 22:36:28.558943+0800 内存管理[22620:86657016] ==== str6: 0x60000299be40 -> __NSCFString
2020-12-13 22:36:28.559050+0800 内存管理[22620:86657016] ==== str7: 0x60000299be60 -> __NSCFString
2020-12-13 22:36:28.559136+0800 内存管理[22620:86657016] ==== str8: 0x60000299be80 -> __NSCFString
从打印结果可知,NSString
对象的内存管理会存在下面这3种情况:
-
NSCFConstantString
:字符串常量,存储在常量区,编译期就会分配好内存,对其操作不会引起引用计数的变化。
使用@""
或WithString
方式创建的字符串,均属于NSCFConstantString
。 -
NSCFString
:运行时创建的字符串对象,存储在堆区,通过引起计数来管理。
使用WithFormat
方式创建的字符串对象,长度大于9或者包含汉字,均为NSCFString
。 -
NSTaggedPointerString
:字符串小对象,存储在常量区,不会引起引用计数的变化。
使用WithFormat
方式创建的字符串对象,长度<=9
且不含汉字,即为NSTaggedPointerString
。
Tagged Pointer对象的区别
从上面示例的打印结果中可看到,NSTaggedPointerString
的输出地址和其他两种有着明显的区别,这里猜测,系统是直接通过地址来区分是否为Tagged Pointer对象
的。
我们知道,上面示例的字符串创建过程实际上是对指针对象作了一次setter
操作, 而在iOS原理 对象的本质一文中可知,setter
方法在底层是调用objc_setProperty
方法,通过先retain新值
、再release旧值
来实现。而retain
和release
操作往往会改变对象的引用计数,但已知Tagged Pointer对象
存在常量区,引用计数不会变化,因此可断定,在retain
和release
方法内部必定对Tagged Pointer对象
作了判断处理。
基于此,可以在objc源码中查看retain
和release
方法的实现,来跟踪分析Tagged Pointer
的判断逻辑。
__attribute__((aligned(16), flatten, noinline))
id
objc_retain(id obj)
{
if (!obj) return obj;
//若是TaggedPointer,直接返回,不做retain处理
if (obj->isTaggedPointer()) return obj;
return obj->retain();
}
__attribute__((aligned(16), flatten, noinline))
void
objc_release(id obj)
{
if (!obj) return;
//若是TaggedPointer,直接返回,不做release处理
if (obj->isTaggedPointer()) return;
return obj->release();
}
果然,可以看到在objc_retain
和objc_release
内部均做了判断:若是Tagged Pointer
对象,就直接返回,不会进行retain
和release
操作。
接着分析isTaggedPointer()
的源码:
#define _OBJC_TAG_MASK (1UL<<63)
static inline bool
_objc_isTaggedPointer(const void * _Nullable ptr)
{
//判断对象地址转为64位二级制后,最高位是否为1
return ((uintptr_t)ptr & _OBJC_TAG_MASK) == _OBJC_TAG_MASK;
}
从源码可知,Tagged Pointer
对象的判断逻辑为:若对象的地址转换成64位二进制后,最高位为1,则为Tagged Pointer
对象。
Tagged Pointer对象的地址分析
还是以NSString
对象来分析,先创建一个NSTaggedPointerString
对象,再打印地址
NSString *str = [NSString stringWithFormat:@"a"];
NSLog(@" ==== str: %@ -> %p -> %@", str, str, [str class]);
//打印结果
2020-12-14 00:46:21.836117+0800 内存管理[30039:87189564] ==== str: a -> 0x938c95d512f57e48 -> NSTaggedPointerString
可以看到,小对象str
的地址为0x938c95d512f57e48
。从iOS原理 内存五大区一文可知,五大区中栈区处于最高位,地址一般以0x7
开头,常量区地址一般以0x1
开头,而Tagged Pointer对象
存储在常量区,地址不可能是以0x9
开头。因此,这里输出的str
地址,不是真实的内存空间地址。
通过查看源码可知,在iOS14后系统对Tagged Pointer对象
的地址进行了混淆处理:
//编码
static inline void * _Nonnull
_objc_encodeTaggedPointer(uintptr_t ptr)
{
//将地址与objc_debug_taggedpointer_obfuscator异或进行编码混淆
return (void *)(objc_debug_taggedpointer_obfuscator ^ ptr);
}
//解码
static inline uintptr_t
_objc_decodeTaggedPointer(const void * _Nullable ptr)
{
//将混淆后的地址与objc_debug_taggedpointer_obfuscator异或进行解码
return (uintptr_t)ptr ^ objc_debug_taggedpointer_obfuscator;
}
混淆过程即是:通过第一次异或运算进行编码混淆,再通过第二次异或运算进行解码获取到地址。
因此,这里复制解码函数的代码到文件里调用,将str
的地址进行解码后打印输出:
//源码拷贝出来
extern uintptr_t objc_debug_taggedpointer_obfuscator;
uintptr_t
_objc_decodeTaggedPointer_(id ptr)
{
return (uintptr_t)ptr ^ objc_debug_taggedpointer_obfuscator;
}
//将小对象的地址解码后以16进制的格式打印
NSString *str = [NSString stringWithFormat:@"a"];
NSLog(@" ==== str: %@ -> %p -> %@", str, str, [str class]);
NSLog(@" ==== str decode: 0x%lx", _objc_decodeTaggedPointer_(str));
//打印结果
2020-12-14 19:39:03.396941+0800 内存管理[48198:88245695] ==== str: a -> 0xc618611a5f17536f -> NSTaggedPointerString
2020-12-14 19:39:03.397753+0800 内存管理[48198:88245695] ==== str decode: 0xa000000000000611
可以看到,解码后的地址为0xa000000000000611
。这个地址其实也不是真实地址,而是包含了Tagged Pointer对象
的地址+值
等信息:
-
a
:转换为二进制为1 010
,其中1
表示此对象为Tagged Pointer对象
。010
表示对象的类型,对应objc_tag_index_t
的枚举值,此处为2,表示是NSString
类型。enum objc_tag_index_t : uint16_t #else typedef uint16_t objc_tag_index_t; enum #endif { // 60-bit payloads OBJC_TAG_NSAtom = 0, OBJC_TAG_1 = 1, OBJC_TAG_NSString = 2, OBJC_TAG_NSNumber = 3, OBJC_TAG_NSIndexPath = 4, OBJC_TAG_NSManagedObjectID = 5, OBJC_TAG_NSDate = 6, ... ... }
-
00000000000061
:0x61
转换为十进制为97,刚好是字符a
的ASSII
码。所以中间的这部分,储存的是小对象的值。 -
1
:最低位是系统用于做其他处理,没有实际用途。
由于Tagged Pointer对象
的地址中包含了对象的值,所以读取时不需要像NSCFString
对象那样,先获取栈区指针保存的地址,再通过地址在堆区访问对象,而是可以直接获取,读取效率提高了3倍。
关于Tagged Pointer的一道面试题
- 问:下面这两种情况的运行结果有什么不同?
dispatch_queue_t queue = dispatch_queue_create("", DISPATCH_QUEUE_CONCURRENT);
for(NSInteger i=0; i<1000; i++){
dispatch_async(queue, ^{
//情况一
self.text = [NSString stringWithFormat:@"a123"];
//情况二
self.text = [NSString stringWithFormat:@"a123456789"];
NSLog(@" ==== text = %@", self.text);
});
}
- 答:情况一正常运行,情况二运行报错。
从代码来看,两种情况唯一不同的地方是字符串的长度不同,而字符串的创建也会对指针对象text
进行setter
操作,底层会先retain新值
、再release旧值
,且不能保证线程安全。所以两种情况运行结果不一致的原因在于:
-
情况一
:创建的字符串为NSTaggedPointerString
对象,在retain
和release
时会直接返回,不作任何处理,所以能正常运行。 -
情况二
:创建的字符串为NSCFString
对象,在多线程模式下进行release
操作,会使得多条线程同时对一个对象释放,导致过度释放
,所以会运行报错。
总结
通过上面的分析,Tagged Pointer
可以得出以下结论:
-
Tagged Pointer
是用来处理小对象,例如NSNumber
、NSDate
以及比较简短的NSString
等对象, 存储在常量区。 -
Tagge Pointer
对象不会进行retain
和release
操作,不需要ARC
管理,内存由系统自主分配和回收。 -
Tagge Pointer
对象,相比堆区存储的对象,读取效率提高约3倍,创建效率快了近100倍,且内存占用更小。 -
Tagged Pointer
对象的地址不再是简单的地址,而是地址+值
。在64位的二进制地址中:- 第64位(1位):用于判断是否为
Tagged Pointer
对象,1为真。 - 第61-63位(3位):用于表示对象的类型,值对应
objc_tag_index_t
的枚举值。 - 第5-60位(56位):用于存储对象的值,这是读取效率高的原因。
- 第1-4位(4位):系统用于其他处理,没有实际用途。
- 第64位(1位):用于判断是否为