iOS之深入解析如何检测“循环引用”-锐单电子商城

一、前言

Objective-C 以引用计数为例 iPhone 与引用计数相比，应用的内存管理方案 GC 更适合内存不足的场景，只需收集与对象相关的局部信息，决定是否回收对象， GC 为了明确可达性，需要全球对象信息。引用计数虽然有其优势，但也正是由于缺乏对全局对象信息的控制，导致了引用计数的优势 Objective-C 陷入循环引用的对象不能自动销毁。虽然 Objective-C 通过引入弱引用技术，开发者可以尽可能避免这个问题，但即使是有经验的工程师也不能100%保证输出的代码没有循环引用。
此时，有必要实时检测对象之间是否有循环引用，以帮助开发人员及时纠正代码中的内存泄漏问题。检测循环引用最直观的方法是递归地获取对象强引用的其他对象，判断检测对象是否被路径上的对象强引用，即在图中找到一个环。在明确检测方法后，下一步需要解决的是如何获得强引用链，即获得对象的强引用，特别是最引起循环引用 block。

二、Block 捕获实体引用

① 捕获区域布局

根据 block 定义结构可以简单地视为：

struct sr_block_layout { 
             void *isa;     int flags;     int reserved;     void (*invoke)(void *, ...);     struct sr_block_descriptor *descriptor;     /* Imported variables. */ };  // 标志位置不同，这种结构的实际布局也会不同，这里简单地放在一起阅读 struct sr_block_descriptor { 
             unsigned long reserved;    // Block_descriptor_1     unsigned long size;     // Block_descriptor_1     void (*)(void *dst, void *src);  // Block_descriptor_2 BLOCK_HAS_COPY_DISPOSE     void (*dispose)(void *);    // Block_descriptor_2     const char *signature;        // Block_descriptor_3 BLOCK_HAS_SIGNATURE     const char *layout;     // Block_descriptor_3 contents depend on BLOCK_HAS_EXTENDED_LAYOUT };

可以看到 block 捕获的变量将存储在 sr_block_layout 结构体 descriptor 在字段后的内存空间中，通过 clang -rewrite-objc 重写以下代码句：

int i = 2; ^{ 
             i; };

可以得到 :

struct __block_impl { 
        
  void *isa;
  int Flags;
  int Reserved;
  void *FuncPtr;
};

struct __main_block_impl_0 { 
        
  struct __block_impl impl;
  struct __main_block_desc_0* Desc;
  int i;
  ...
};

__main_block_impl_0 结构中新增了捕获的 i 字段，即 sr_block_layout 结构体的 imported variables 部分，这种操作可以看作在 sr_block_layout 尾部定义了一个 0 长数组，可以根据实际捕获变量的大小，给捕获区域申请对应的内存空间，只不过这一操作由编译器完成：

struct sr_block_layout { 
        
    void *isa;
    int flags;
    int reserved;
    void (*invoke)(void *, ...);
    struct sr_block_descriptor *descriptor;
    char captured[0];
};

既然已经知道捕获变量 i 的存放地址，那么就可以通过 *(int *)layout->captured 在运行时获取 i 的值，得到捕获区域的起始地址之后，再来看捕获区域的布局问题，考虑以下代码块：

int i = 2;
NSObject *o = [NSObject new];
void (^blk)(void) = ^{ 
        
    i;
    o;
};

捕获区域的布局分两部分看：顺序和大小，先使用老方法重写代码块：

struct __main_block_impl_0 { 
        
  struct __block_impl impl;           // 24
  struct __main_block_desc_0* Desc;   // 8 指针占用内存大小和寻址长度相关，在 64 位机环境下，编译器分配空间大小为 8 字节
  int i;                              // 8
  NSObject *o;                        // 8
  ...
};

按照目前 clang 针对 64 位机的默认对齐方式（下文的字节对齐计算都基于此前提条件），可以计算出这个结构体占用的内存空间大小为 24 + 8 + 8 + 8 = 48字节，并且按照上方代码块先 i 后 o 的捕获排序方式，如果要访问捕获的 o 对象指针变量，只需要在捕获区域起始地址上偏移 8 字节即可，可以借助 lldb 的 memory read (x) 命令查看这部分内存空间：

(lldb) po *(NSObject **)(layout->captured + 8)
0x0000000000000002
(lldb) po *(NSObject **)layout->captured
<NSObject: 0x10073f290>
(lldb) p *(int *)(layout->captured + 8)
(int) $6 = 2
(lldb) p (int *)(layout->captured + 8)
(int *) $9 = 0x0000000100740d18
(lldb) p layout->descriptor->size
(unsigned long) $11 = 44
(lldb) x/44bx layout
0x100740cf0: 0x70 0x21 0x7b 0xa6 0xff 0x7f 0x00 0x00
0x100740cf8: 0x02 0x00 0x00 0xc3 0x00 0x00 0x00 0x00
0x100740d00: 0x40 0x1d 0x00 0x00 0x01 0x00 0x00 0x00
0x100740d08: 0xb0 0x20 0x00 0x00 0x01 0x00 0x00 0x00
0x100740d10: 0x90 0xf2 0x73 0x00 0x01 0x00 0x00 0x00
0x100740d18: 0x02 0x00 0x00 0x00

和使用 clang -rewrite-objc 重写时的猜想不一样，可以从以上终端日志中看出以下两点：
- 捕获变量 i、o 在捕获区域的排序方式为 o、i，o 变量地址与捕获起始地址一致，i 变量地址为捕获起始地址加上 8 字节；
- 捕获整形变量 i 在内存中实际占用空间大小为 4 字节；
那么 block 到底是怎么对捕获变量进行排序，并且为其分配内存空间的呢？这就需要看 clang 是如何处理 block 捕获的外部变量。

② 捕获区域布局分析

首先解决捕获变量排序的问题，根据 clang 针对这部分的排序代码，可以知道，在对齐字节数 (alignment) 不相等时，捕获的实体按照 alignment 降序排序 (C 结构体比较特殊，即使整体占用空间比指针变量大，也排在对象指针后面)，否则按照以下类型进行排序：
- __label 修饰对象指针变量；
- __block 修饰对象指针变量；
- __weak 修饰对象指针变量；
- 其他变量；
再结合 clang 对捕获变量对齐子节数计算方式，可以知道，block 捕获区域变量的对齐结果趋向于被 attribute ((packed)) 修饰的结构体，举个例子：

struct foo { 
        
    void *p;    // 8
    int i;      // 4
    char c;     // 4 实际用到的内存大小为 1
};

创建 foo 结构体需要分配的空间大小为 8 + 4 + 4 = 16，关于结构体的内存对齐方式，编译器会按照成员列表的顺序一个接一个地给每个成员分配内存，只有当存储成员需要满足正确的边界对齐要求时，成员之间才可能出现用于填充的额外内存空间，以提升计算机的访问速度（对齐标准一般和寻址长度一致），在声明结构体时，让那些对齐边界要求最严格的成员最先出现，对边界要求最弱的成员最后出现，可以最大限度地减少因边界对齐而带来的空间损失。再看以下代码块：

struct foo { 
        
    void *p;    // 8
    int i;      // 4
    char c;     // 1
} __attribute__ ((__packed__));

attribute ((packed)) 编译属性会告诉编译器，按照字段的实际占用子节数进行对齐，所以创建 foo 结构体需要分配的空间大小为 8 + 4 + 1 = 13。
结合以上两点，可以尝试分析以下 block 捕获区域的变量布局情况：

NSObject *o1 = [NSObject new];
__weak NSObject *o2 = o1;
__block NSObject *o3 = o1;
unsigned long long j = 4;
int i = 3;
char c = 'a';
void (^blk)(void) = ^{ 
        
    i;
    c;
    o1;
    o2;
    o3;
    j;
};

按照 aligment 排序，可以得到排序顺序为 [o1 o2 o3] j i c，再根据 __label、__block、__weak 修饰符对 o1 o2 o3 进行排序，可得到最终结果 o1[8] o3[8] o2[8] j[8] i[4] c[1]。同样的，我们使用 lldb 的 x 命令验证分析结果是否正确：

(lldb) x/69bx layout
0x10200d940: 0x70 0x21 0x7b 0xa6 0xff 0x7f 0x00 0x00
0x10200d948: 0x02 0x00 0x00 0xc3 0x00 0x00 0x00 0x00
0x10200d950: 0xf0 0x1b 0x00 0x00 0x01 0x00 0x00 0x00
0x10200d958: 0xf8 0x20 0x00 0x00 0x01 0x00 0x00 0x00
0x10200d960: 0xa0 0xf6 0x00 0x02 0x01 0x00 0x00 0x00  // o1
0x10200d968: 0x90 0xd9 0x00 0x02 0x01 0x00 0x00 0x00  // o3
0x10200d970: 0xa0 0xf6 0x00 0x02 0x01 0x00 0x00 0x00  // o2
0x10200d978: 0x04 0x00 0x00 0x00 0x00 0x00 0x00 0x00  // j
0x10200d980: 0x03 0x00 0x00 0x00 0x61                 // i c
(lldb) p o1
(NSObject *) $1 = 0x000000010200f6a0

可以看到，小端模式下，捕获的 o1 和 o2 指针变量值为 0x10200f6a0，对应内存地址为 0x10200d960 和 0x10200d970，而 o3 因为被 __block 修饰，编译器为 o3 捕获变量包装了一层 byref 结构，所以其值为 byref 结构的地址 0x102000d990，而不是 0x10200f6a0，捕获的 j 变量地址为 0x10200d978，i 变量地址为 0x10200d980，c 字符变量紧随其后。

③ Descriptor 的 Layout 信息

经过上述的一系列分析，捕获区域变量的布局方式已经大致清楚，接下来回过头看下 sr_block_descriptor 结构的 layout 字段是用来干什么的？从字面上理解，这个字段很可能保存了 block 某一部分的内存布局信息，比如捕获区域的布局信息，依然使用上文的最后一个例子，看看 layout 的值：

(lldb) p layout->descriptor->layout
(const char *) $2 = 0x0000000000000111 ""

可以看到 layout 值为空字符串，并没有展示出任何直观的布局信息，看来要想知道 layout 是怎么运作的，可以阅读 block 代码和 clang 代码，继续一步步地分析这两段代码里面隐藏的信息，这里贴出其中的部分代码和注释：

// block
// Extended layout encoding.

// Values for Block_descriptor_3->layout with BLOCK_HAS_EXTENDED_LAYOUT
// and for Block_byref_3->layout with BLOCK_BYREF_LAYOUT_EXTENDED

// If the layout field is less than 0x1000, then it is a compact encoding 
// of the form 0xXYZ: X label pointers, then Y byref pointers, 
// then Z weak pointers.

// If the layout field is 0x1000 or greater, it points to a 
// string of layout bytes. Each byte is of the form 0xPN.
// Operator P is from the list below. Value N is a parameter for the operator.

enum { 
        
    ...
    BLOCK_LAYOUT_NON_OBJECT_BYTES = 1,    // N bytes non-objects
    BLOCK_LAYOUT_NON_OBJECT_WORDS = 2,    // N words non-objects
    BLOCK_LAYOUT_STRONG           = 3,    // N words label pointers
    BLOCK_LAYOUT_BYREF            = 4,    // N words byref pointers
    BLOCK_LAYOUT_WEAK             = 5,    // N words weak pointers
    ...
};

// clang 
/// InlineLayoutInstruction - This routine produce an inline instruction for the
/// block variable layout if it can. If not, it returns 0. Rules are as follow:
/// If ((uintptr_t) layout) < (1 << 12), the layout is inline. In the 64bit world,
/// an inline layout of value 0x0000000000000xyz is interpreted as follows:
/// x captured object pointers of BLOCK_LAYOUT_STRONG. Followed by
/// y captured object of BLOCK_LAYOUT_BYREF. Followed by
/// z captured object of BLOCK_LAYOUT_WEAK. If any of the above is missing, zero
/// replaces it. For example, 0x00000x00 means x BLOCK_LAYOUT_STRONG and no
/// BLOCK_LAYOUT_BYREF and no BLOCK_LAYOUT_WEAK objects are captured.

首先要解释的是 inline 这个词，Objective-C 中有一种叫做 Tagged Pointer 的技术，它让指针保存实际值，而不是保存实际值的地址，这里的 inline 也是相同的效果，即让 layout 指针保存实际的编码信息。在 inline 状态下，使用十六进制中的一位表示捕获变量的数量，所以每种类型的变量最多只能有 15 个，此时的 layout 的值以 0xXYZ 形式呈现，其中 X、Y、Z 分别表示捕获 __label、__block、__weak 修饰指针变量的个数，如果其中某个类型的数量超过 15 或者捕获变量的修饰类型不为这三种任何一个时，比如捕获的变量由 __unsafe_unretained 修饰，则采用另一种编码方式，这种方式下，layout 会指向一个字符串，这个字符串的每个字节以 0xPN 的形式呈现，并以 0x00 结束，P 表示变量类型，N 表示变量个数，需要注意的是，N 为 0 表示 P 类型有一个，而不是 0 个，也就是说实际的变量个数比 N 大 1。
需要注意的是，捕获 int 等基础类型，不影响 layout 的呈现方式，layout 编码中也不会有关于基础类型的信息，除非需要基础类型的编码来辅助定位对象指针类型的位置，比如捕获含有对象指针字段的结构体。
如下所示：代码块没有捕获任何对象指针，所以实际的 descriptor 不包含 copy 和 dispose 字段：

unsigned long long j = 4;
int i = 3;
char c = 'a';
void (^blk)(void) = ^{ 
        
    i;
    c;
    j;
};

去除这两个字段后，再输出实际的布局信息，结果为空（0x00 表示结束），说明捕获一般基础类型变量不会计入实际的 layout 编码：

(lldb) p/x (long)layout->descriptor->layout
(long) $0 = 0x0000000100001f67
(lldb) x/8bx layout->descriptor->layout
0x100001f67: 0x00 0x76 0x31 0x36 0x40 0x30 0x3a 0x38

接着尝试第一种 layout 方式：

NSObject *o1 = [NSObject new];
__block NSObject *o3 = o1;
__weak NSObject *o2 = o1;
void (^blk)(void) = ^{ 
        
    o1;
    o2;
    o3;
};

以上代码块对应的 layout 值为 0x111，表示三种类型变量每种一个：

(lldb) p/x (long)layout->descriptor->layout
(long) $0 = 0x0000000000000111

再尝试第二种 layout 编码方式：

NSObject *o1 = [NSObject new];
__block NSObject *o3 = o1;
__weak NSObject *o2 = o1;
NSObject *o4 = o1;
... // 5 - 18
NSObject *o19 = o1;
void (^blk)(void) = ^{ 
        
    o1;
    o2;
    o3;
    o4;
    ... // 5 - 18
    o19;
};

以上代码块对应的 layout 值是一个地址 0x0000000100002f44 ，这个地址为编码字符串的起始地址，转换成十六进制后为 0x3f 0x30 0x40 0x50 0x00，其中 P 为 3 表示 __label 修饰的变量，数量为 15(f) + 1 + 0 + 1 = 17 个，P 为 4 表示 __block 修饰的变量，数量为 0 + 1 = 1 个， P 为 5 表示 __weak 修饰的变量，数量为 0 + 1 = 1 个：

(lldb) p/x (long)layout->descriptor->layout
(long) $0 = 0x0000000100002f44
(lldb) x/8bx layout->descriptor->layout
0x100002f44: 0x3f 0x30 0x40 0x50 0x00 0x76 0x31 0x36

④ 结构体对捕获布局的影响

由于结构体字段的布局顺序在声明时就已经确定，无法像 block 构造捕获区域一样，按照变量类型、修饰符进行调整，所以如果结构体中有类型为对象指针的字段，就需要一些额外信息来计算这些对象指针字段的偏移量，需要注意的是，被捕获结构体的内存对齐信息和未捕获时一致，以寻址长度作为对齐基准，捕获操作并不会变更对齐信息。

同样地，先尝试捕获只有基本类型字段的结构体：

struct S { 
        
    char c;
    int i;
    long j;
} foo;
void (^blk)(void) = ^{ 
        
  foo;
};

然后调整 descriptor 结构，输出 layout :

(lldb) x/8bx layout->descriptor->layout
0x100001f67: 0x00 0x76 0x31 0x36 0x40 0x30 0x3a 0x38

可以看到，只有含有基本类型的结构体，同样不会影响 block 的 layout 编码信息。给结构体新增 __label 和 __weak 修饰的对象指针字段：

struct S { 
        
    char c;
    int i;
    __label NSObject *o1;
    long j;
    __weak NSObject *o2;
} foo;
void (^blk)(void) = ^{ 
        
  foo;
};

同样分析输出 layout :

(lldb) x/8bx layout->descriptor->layout
0x100002f47: 0x20 0x30 0x20 0x50 0x00 0x76 0x31 0x36

layout 编码为0x20 0x30 0x20 0x50 0x00，其中 P 为 2 表示 word 字类型（非对象），由于字大小一般和指针一致，所以表示占用 8 * (N + 1) 个字节，第一个 0x20 表示非对象指针类型占用了 8 个字节，也就是 char 类型和 int 类型字段对齐之后所占用的空间，接着 0x30 表示有一个 __label 修饰的对象指针字段，第二个 0x20 表示非对象指针 long 类型占用 8 个字节，最后的 0x50 表示有一个 __weak 修饰的对象指针字段。由于编码中包含每个字段的排序和大小，就可以通过解析 layout 编码后的偏移量，拿到想要的对象指针值。 P 还有个 byte 类型，值为 1，和 word 类型有相似的功能，只是表示的空间大小不同。

⑤ Byref 结构的布局

由 __block 修饰的捕获变量，会先转换成 byref 结构，再由这个结构去持有实际的捕获变量，block 只负责管理 byref 结构：

// 标志位不一样，这个结构的实际布局也会有差别，简单地放在一起好阅读
struct sr_block_byref { 
        
    void *isa;
    struct sr_block_byref *forwarding;
    // contains ref count
    volatile int32_t flags; 
    uint32_t size;
    // requires BLOCK_BYREF_HAS_COPY_DISPOSE
    void (*byref_keep)(struct sr_block_byref *dst, struct sr_block_byref *src);
    void (*byref_destroy)(struct sr_block_byref *);
    // requires BLOCK_BYREF_LAYOUT_EXTENDED
    const char *layout;
};

以上代码块就是 byref 对应的结构体，第一眼看上去，比较困惑为什么还要有 layout 字段，虽然 block 源码注释说明 byref 和 block 结构一样，都具备两种不同的布局编码方式，但是 byref 不是只针对一个变量吗，难道和 block 捕获区域一样也可以携带多个捕获变量？带着这个困惑，先看下以下表达式 :

__block  NSObject *o1 = [NSObject new];

使用 clang 重写之后：

struct __Block_byref_o1_0 { 
        
    void *__isa;
    __Block_byref_o1_0 *__forwarding;
    int __flags;
    int __size;
    void (*__Block_byref_id_object_copy)(void*, void*);
    void (*__Block_byre/* @autoreleasepool */o{ 
         __AtAutoreleasePool __autoreleasepool; e)(void*);
    NSObject *o1;
};

和 block 捕获变量一样，byref 携带的变量也是保存在结构体尾部的内存空间里，当前上下文中，可以直接通过 sr_block_byref 的 layout 字段获取 o1 对象指针值。可以看到，在包装如对象指针这类常规变量时，layout 字段并没有起到实质性的作用，那什么条件下的 layout 才表示布局编码信息呢？如果使用 layout 字段表示编码信息，那么携带的变量又是何处安放的呢？
针对第一个问题，先看以下代码块 :

__block struct S { 
        
    NSObject *o1;
} foo;
foo.o1 = [NSObject new];
void (^blk)(void) = ^{ 
        
  foo;
};

使用 clang 重写之后：

struct __Block_byref_foo_0 { 
        
  void *__isa;
  __Block_byref_foo_0 *__forwarding;
  int __flags;
  int __size;
  void (*__Block_byref_id_object_copy)(void*, void*);
  void (*__Block_byref_id_object_dispose)(void*);
  struct S foo;
};

和常规类型一样，foo 结构体保存在结构体尾部，也就是原本 layout 所在的字段，重写的代码中依然看不到 layout 的踪影，接着输出 foo :

(lldb) po foo.o1
<NSObject: 0x10061f130>
(lldb) p (struct S)a_byref->layout
error: Multiple internal symbols found for 'S'
(lldb) p/x (long)a_byref->layout
(long) $3 = 0x0000000000000100
(lldb) x/56bx a_byref
0x100627c20: 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00
0x100627c28: 0x20 0x7c 0x62 0x00 0x01 0x00 0x00 0x00
0x100627c30: 0x04 0x00 0x00 0x13 0x38 0x00 0x00 0x00
0x100627c38: 0x90 0x1b 0x00 0x00 0x01 0x00 0x00 0x00
0x100627c40: 0x00 0x1c 0x00 0x00 0x01 0x00 0x00 0x00
0x100627c48: 0x00 0x01 0x00 0x00 0x00 0x00 0x00 0x00
0x100627c50: 0x30 0xf1 0x61 0x00 0x01 0x00 0x00 0x00

看来事情并没有看上去的那么简单，首先重写代码中 foo 字段所在内存保存的并不是结构体，而是 0x0000000000000100，这个 100 是不是看着有点眼熟？没错，这就是 byref 的 layout 信息，根据 0xXYZ 编码规则，这个值表示有 1 个 __label 修饰的对象指针。
接着针对第二个问题，携带的对象指针变量存在哪？往下移动 8 个字节，这不就是 foo.o1 对象指针的值么？总结下，在存在 layout 的情况下，byref 使用 8 个字节保存 layout 编码信息，并紧跟着在 layout 字段后存储捕获的变量。
以上是 byref 的第一种 layout 编码方式，再尝试第二种：

__block struct S { 
        
    char c;
    NSObject *o1;
    __weak NSObject *o3;
} foo;
foo.o1 = [NSObject new];
void (^blk)(void) = ^{ 
        
  foo;
};

使用 clang 重写代码之后 :

struct __Block_byref_foo_0 { 
         
        标签： 2e8起动调整型电阻器zt2sr循环数显继电器dh48s
 锐单商城拥有海量元器件数据手册、
          IC替代型号，打造
          电子元器件IC百科大全！

 热门文章
          
  动力学技术KTU1121 USB Type-C 端口保护器的介绍、特性、及应用
 
                          具有四个过电压保护(OVP)的USB Type-C CC和SBU信号传导路径。
                        
Sensata PTE7300密封数字压力传感器的介绍、特性、及应用
PANJIT PBHV8110DA/PBHV9110DA低Vce(sat)晶体管的介绍、特性、及应用
ams OSRAM OSLON 黑色平板X LED器件的介绍、特性、及应用
Cree LED CLQ6A三合一贴片LED的介绍、特性、及应用
Cree LED CLQ6B 4-in-1 RGBW贴片LED的介绍、特性、及应用
NDK NX1210AB表面贴装晶体的介绍、特性、及应用
伊顿ACE2V3225共模芯片电感器的介绍、特性、及应用
意法半导体X040灵敏型栅可控硅和Z040可控硅的介绍、特性、及应用
ABLIC S-82Y1B电池保护芯片的介绍、特性、及应用
Bel Power Solutions RDT-6Y系列6W DC-DC转换器的介绍、特性、及应用
 热门型号
          
 ACA5-20PC-7-AC1-RL-C
544KV
SOL4B4
HIFLEX PRESS HHP502
ACA5-20PC-7-DC1-RL-C
140-0000-962
43090
AS-FCOPM
SOL2A1
0638007900
  锐单商城 - 一站式电子元器件采购平台   
  深圳锐单电子有限公司

 首页 选型 品牌 购物车 我的
   
   
  
  
 
  搜索
 最近热搜
 
 历史搜索 清除历史记录

iOS之深入解析如何检测“循环引用”

最近热搜

历史搜索 清除历史记录

历史搜索清除历史记录