类原理探索-cache_t

未来的你,一定会感谢现在拼命的自己

前言

前面的文章我们讨论了类的底层实现和通过内存平移的到来 class_data_bits_t 这个结构,也引出了 cache_t 这个概念。那么今天就来探索一下这个 cache_t 到底是何方神圣。

准备一份如下的源码

@interface CDPerson : NSObject

@property (nonatomic, copy) NSString *name;
@property (nonatomic, strong) NSString *nickName;

- (void)say1;
- (void)say2;
- (void)say3;
- (void)say4;
- (void)say5;
- (void)say6;
- (void)say7;
- (void)say8;
- (void)say9;
 
@end

源码分析&LLDB调试

  1. 首先我们看看 cache_t 的结构体模型。
  • cache_t 的成员变量,这个才是真正可以存值的东西
    explicit_atomic<uintptr_t> _bucketsAndMaybeMask;
    union {
        struct {
            explicit_atomic<mask_t>    _maybeMask;
#if __LP64__
            uint16_t                   _flags;
#endif
            uint16_t                   _occupied;
        };
        explicit_atomic<preopt_cache_t *> _originalPreoptCache;
    };

  • 这里定义了各个系统的相关的常量
#if CACHE_MASK_STORAGE == CACHE_MASK_STORAGE_OUTLINED
    // _bucketsAndMaybeMask is a buckets_t pointer
    // _maybeMask is the buckets mask
    static constexpr uintptr_t bucketsMask = ~0ul; 

    // 这里是64 位的macos 或者是模拟器
#elif CACHE_MASK_STORAGE == CACHE_MASK_STORAGE_HIGH_16_BIG_ADDRS
    static constexpr uintptr_t maskShift = 48;
    static constexpr uintptr_t maxMask = ((uintptr_t)1 << (64 - maskShift)) - 1;
    static constexpr uintptr_t bucketsMask = ((uintptr_t)1 << maskShift) - 1;
    static constexpr uintptr_t preoptBucketsMarker = 1ul;
    static constexpr uintptr_t preoptBucketsMask = bucketsMask & ~preoptBucketsMarker; 

    // 这里是64 位的真机,这里面可以看到很多的 Shift 相关的变量。
#elif CACHE_MASK_STORAGE == CACHE_MASK_STORAGE_HIGH_16
    // _bucketsAndMaybeMask is a buckets_t pointer in the low 48 bits
    // _maybeMask is unused, the mask is stored in the top 16 bits.
/// 这里也说明了,_maybeMsk 没有使用,而是存放在高 16 位的。这种存储的方式就和 nonPointerIsa 一样的,通过位域的形式来存储更多的信息,目的就是优化内存。下面一些操作都是去获取 mask。

    // How much the mask is shifted by.
    static constexpr uintptr_t maskShift = 48;

    // Additional bits after the mask which must be zero. msgSend
    // takes advantage of these additional bits to construct the value
    // `mask << 4` from `_maskAndBuckets` in a single instruction.
    static constexpr uintptr_t maskZeroBits = 4;

    // The largest mask value we can store.
    static constexpr uintptr_t maxMask = ((uintptr_t)1 << (64 - maskShift)) - 1;
    
    // The mask applied to `_maskAndBuckets` to retrieve the buckets pointer.
    static constexpr uintptr_t bucketsMask = ((uintptr_t)1 << (maskShift - maskZeroBits)) - 1;
    
    #if CONFIG_USE_PREOPT_CACHES
        static constexpr uintptr_t preoptBucketsMarker = 1ul;
        #if __has_feature(ptrauth_calls)
            // 63..60: hash_mask_shift
            // 59..55: hash_shift
            // 54.. 1: buckets ptr + auth
            //      0: always 1
            static constexpr uintptr_t preoptBucketsMask = 0x007ffffffffffffe;
            static inline uintptr_t preoptBucketsHashParams(const preopt_cache_t *cache) {
                uintptr_t value = (uintptr_t)cache->shift << 55;
                // masks have 11 bits but can be 0, so we compute
                // the right shift for 0x7fff rather than 0xffff
                return value | ((objc::mask16ShiftBits(cache->mask) - 1) << 60);
            }
        #else
            // 63..53: hash_mask
            // 52..48: hash_shift
            // 47.. 1: buckets ptr
            //      0: always 1
            static constexpr uintptr_t preoptBucketsMask = 0x0000fffffffffffe;
            static inline uintptr_t preoptBucketsHashParams(const preopt_cache_t *cache) {
                return (uintptr_t)cache->hash_params << 48;
            }
        #endif
    #endif // CONFIG_USE_PREOPT_CACHES
  • 相关的取值方法
 unsigned capacity() const;
    struct bucket_t *buckets() const;
    Class cls() const;
    mask_t occupied() const;
    void initializeToEmpty();
  1. 然后再来看看 bucket_t 的结构体数据
#if __arm64__
    explicit_atomic<uintptr_t> _imp;
    explicit_atomic<SEL> _sel;
#else
    explicit_atomic<SEL> _sel;
    explicit_atomic<uintptr_t> _imp;
#endif

从数据结构可以知道,我们缓存里面存放的是sel 和 imp。

  1. 然后我们用LLDB 来看看 cache_t 的具体内存结构


    LLDB打印cache_t结构

    通过上面的源码我们可以看到里面有一个返回的 bucket_t 的结构体指针的方法 buckets()。
    那么我们在打印一下这个

(lldb) p $2.buckets()
(bucket_t *) $3 = 0x00000001003690f0
(lldb) p *$3
(bucket_t) $4 = {
  _imp = {
    std::__1::atomic<unsigned long> = {
      Value = 0
    }
  }
  _sel = {
    std::__1::atomic<objc_selector *> = (null) {
      Value = nil
    }
  }
}

从结果可以发现,这里面什么都没有。那么我们运行一个方法后在看结果又是如何。


运行方法后的结果

然后打印具体的 sel 和 imp 也可以知道确实是我们刚才调用的。

(lldb) p $7.sel()
(SEL) $8 = "say1"
(lldb) p $7.imp(NULL, [CDPerson class])
(IMP) $9 = 0x00000001000039cc (CDCachetDemo`-[CDPerson say1])
  1. 小结:通过上面的流程我们得出了如下的结论

cache_t 里面的数据全部缓存在 buckets 里面;
cache_t 缓存的数据是方法,并不换成属性和成员变量;
可以通过内存平移的方法获取到下一个 bucket

脱离源码调试

脱离源代码就是在不使用 objc 源代码的情况下调试,因为源代码一般下载下来都是没发遍一遍通过的,需要下载和调试相关的依赖库才可以。但是还是需要借助源代码来分析数据结构的,那么先准备一份如下的源码以便于调试。

typedef uint32_t mask_t;  // x86_64 & arm64 asm are less efficient with 16-bits
struct cd_bucket_t {
    SEL _sel;
    IMP _imp;
};

struct cd_cache_t {
    struct cd_bucket_t * _buckets;
    mask_t _mask;
    uint16_t _flags;
    uint16_t _occupied;
};

struct cd_class_data_bits_t {
    uintptr_t bits;
};

struct cd_objc_class {
    Class ISA;
    Class superclass;
    struct cd_cache_t cache;             // formerly cache pointer and vtable
    struct cd_class_data_bits_t bits;    // class_rw_t * plus custom rr/alloc flags
};

然后实现如下的代码


脱离源代码测试
  • 按照这个打印,可以得到如下的结果 看结果: 0x1000085d0 flags = 32804; occupied = 0; mask = 0; sizeof = 8 。这里和我们之前的源码调试是一样的,没有任何缓存。

  • 然后放开61 行的注释,即调用 init 方法,打印的结果如下:


    init 的缓存
  • 然后单独放开 62 行的注释,级调用属性赋值 (即:setter 方法),


    setter 的缓存
  • 然后单独放开 64 行,即调用成员方法。


    成员方法的缓存
  • 然后放掉 61~64 行的注释,即调用了多个方法:结果如下


    调用了多个方法看缓存
  • 最后过掉所有的注释,看结果又是如下:


通过上面的调试,我们知道了 init 、setter 、 method 会有缓存。
那么这里带来了几个问题。

  1. _mask 是什么?
  2. _occupied 是什么?
  3. 为什么 maskoccupied 一会儿是 1 、 3,一会儿又是 2 、 7
  4. 为什么方法的缓存不是从0号位开始的?
  5. 为什么方法的缓存顺序是不和我调用的顺序一样?
  6. 为什么我在调用了4个方法后,缓存列表里面只有两个方法(say1 、 setNickName)?

cache_t 源码分析

这里我们有个疑问,就是缓存是什么时候存进去的呢?发现源码里面有一个 insert方法(void insert(SEL sel, IMP imp, id receiver);)我们看看源码

void cache_t::insert(SEL sel, IMP imp, id receiver)
{
......
    // Use the cache as-is if until we exceed our expected fill ratio.
    mask_t newOccupied = occupied() + 1;
    unsigned oldCapacity = capacity(), capacity = oldCapacity;
    if (slowpath(isConstantEmptyCache())) {
        // Cache is read-only. Replace it.
        if (!capacity) capacity = INIT_CACHE_SIZE;
/// 1. 这里先判断是否是第一次执行,如果是就去开辟内存。
        reallocate(oldCapacity, capacity, /* freeOld */false);
    }
    else if (fastpath(newOccupied + CACHE_END_MARKER <= cache_fill_ratio(capacity))) {
/// 2. 这里表示当前的buckets 的mask 数量大于 occupied,就不用开辟新的内存空间
    }
#if CACHE_ALLOW_FULL_UTILIZATION
    else if (capacity <= FULL_UTILIZATION_CACHE_SIZE && newOccupied + CACHE_END_MARKER <= capacity) {
        // Allow 100% cache utilization for small buckets. Use it as-is.
    }
#endif
    else {
/// 3. 这里表示要插入的的bucket 没有了空间,需要扩容并且重新开辟新的内存,并且释放掉之前旧的内存空间。
/// 比如,当前有2个缓存,然后当要插入第 3 个缓存的时候,newOccupied = 3,newOccupied + CACHE_END_MARKER <= cache_fill_ratio(capacity) = 3 不成了,所以就会扩容。
/// 至于为什么要释放旧的内存空间,大概是为了优化内存,长时间没用的缓存就释放掉,等下一次调用的时候在重新缓存。
        capacity = capacity ? capacity * 2 : INIT_CACHE_SIZE;
        if (capacity > MAX_CACHE_SIZE) {
            capacity = MAX_CACHE_SIZE;  ///这里也限制了,最多可以有 2^16 个缓存
        }
        reallocate(oldCapacity, capacity, true);
    }

    bucket_t *b = buckets();
    mask_t m = capacity - 1;  
    mask_t begin = cache_hash(sel, m);  /// 采用哈希算法获取当前的bucket 需要存放的位置,
    mask_t i = begin;

    /// 4. 这里就是插入 bucket 到指定的缓存位置。
    do {
        if (fastpath(b[i].sel() == 0)) {
/// 如果当前的位置不存在数据,或者为一片空的内存空间,那么就插入这个bucket。并且让 _occupied 自增1。
            incrementOccupied();
            b[i].set<Atomic, Encoded>(b, sel, imp, cls());
            return;
        }
        if (b[i].sel() == sel) {
             /// 如果当前 bucket 里面的sel 和 将要存入的一样,则跳过。
            return;
        }

/// 这里是循环的终止条件,一直寻找下一个 i 直到找到了最初的位置,即处理hash 冲突
    } while (fastpath((i = cache_next(i, m)) != begin));

    bad_cache(receiver, (SEL)sel);
#endif // !DEBUG_TASK_THREADS
}
  1. 然后我们去查看开辟内存的方法:
void cache_t::reallocate(mask_t oldCapacity, mask_t newCapacity, bool freeOld)
{
    bucket_t *oldBuckets = buckets();
    bucket_t *newBuckets = allocateBuckets(newCapacity);
    // 这里开辟新的 buckets。
.....

bucket_t *cache_t::allocateBuckets(mask_t newCapacity)
{
    // Allocate one extra bucket to mark the end of the list.
    // This can't overflow mask_t because newCapacity is a power of 2.
    bucket_t *newBuckets = (bucket_t *)calloc(bytesForCapacity(newCapacity), 1);
    // 这里开辟了一段连续的空间,用于存放 ‘newCapacity’ 个 ‘bucket_t’ 结构体。
......

void cache_t::setBucketsAndMask(struct bucket_t *newBuckets, mask_t newMask)
{ 
    // ensure other threads see new buckets before new mask
    _maybeMask.store(newMask, memory_order_release);
/// 通过这个方法,就重新设置里buckets * 和 maybeMask 这两个数据了
......

///通过这个方法,我们知道开辟的内存为大小为 newCapacity * sizeof(bucket) 的大小(即 16 的倍数),所以获取指定的 bucket_t 都可以通过内存平移的方式去寻找,因为这里开辟的内存是连续的,并且存放 bucket_t  数据。

小结:insert 方法就是缓存的插入事件

1.在这里面会判断当前有没有缓存 buckets 如果没有,那么就调用 reallocate -> allocateBuckets 去开辟新的缓存内存空间;
2.如果有缓存空间并且空间的3/4足够插入当前要缓存的 bucket那么就直接通过 hash 算法寻找对应的缓存下标去缓存对应的数据;
3.如果缓存空间的3/4不足一插入下一个 bucket,那么就开辟新的扩容空间并且释放掉之前的空间,把当前的数据插入到指新的空间里面。

到此,我们缓存的插入算是完成了,那上面的疑问也有了答案。

  1. _mask 是什么?
    _mask 是当前缓存可以存放的缓存个数的大小,其值为常量 capacity - 1
  1. _occupied 是什么?
    _occupied 是当前缓存的具体个数,比如当只有一个setter(setName)的时候,那么这个 _occupied 就是1,如果当调用了三个方法后,由于第低三个方法的加上1 大于 4*3/4 ,所以这时候扩容开辟新的内存,存储第三个方法。
  1. 为什么 maskoccupied 一会儿是 1 、 3,一会儿又是 2 、 7
    由于 mask 在新的 occupied + 1 大于 capacity *3/4 ,所以当内存扩容后 capacity 就变成了 8, mask=capacity - 1 所以为7。
  1. 为什么方法的缓存不是从0号位开始的?
    这个也不一定,因为是通过hash算法的得出的结果
  1. 为什么方法的缓存顺序是不和我调用的顺序一样?
    因为是通过 hash 算法后去到的下标位置,如果有当前算处的位置存在bucket那么会处理hash 冲突,计算一个新的下标位置。
  1. 为什么我在调用了4个方法后,缓存列表里面只有两个方法(say1 、 setNickName)?
    因为扩容后,清除了之前缓存 buckets,所以缓存的是扩容后新的方法的调用。
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,772评论 6 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,458评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,610评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,640评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,657评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,590评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,962评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,631评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,870评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,611评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,704评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,386评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,969评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,944评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,179评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,742评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,440评论 2 342

推荐阅读更多精彩内容

  • cache_t 的基本结构 上之前类的结构分析一篇中,我们知道类的结构为: 也明白了bits,ISA以及super...
    yan0_0阅读 384评论 0 0
  • 在之前的文章中分析了objc_class中的isa和bits,现在本文就来分析剩下的cache 准备工作 定义一个...
    木扬音阅读 387评论 0 3
  • 1. cache中存储的是什么? 查看cache_t的源码,发现分成了3个架构的处理,其中真机的架构中,mask和...
    Gumball_a45f阅读 162评论 0 1
  • 我们在iOS底层之类的结构分析[https://www.jianshu.com/p/833e70929642]分析...
    K哥的贼船阅读 459评论 0 1
  • 我是黑夜里大雨纷飞的人啊 1 “又到一年六月,有人笑有人哭,有人欢乐有人忧愁,有人惊喜有人失落,有的觉得收获满满有...
    陌忘宇阅读 8,520评论 28 53