写点什么

抖音研发实践:基于二进制文件重排的解决方案,APP 启动速度提升超 15%

  • 2020-01-22
  • 本文字数:5735 字

    阅读完需:约 19 分钟

抖音研发实践:基于二进制文件重排的解决方案,APP启动速度提升超15%

背景

启动是 App 给用户的第一印象,对用户体验至关重要。抖音的业务迭代迅速,如果放任不管,启动速度会一点点劣化。为此抖音 iOS 客户端团队做了大量优化工作,除了传统的修改业务代码方式,我们还做了些开拓性的探索,发现修改代码在二进制文件的布局可以提高启动性能,方案落地后在抖音上启动速度提高了约 15%。


本文从原理出发,介绍了我们是如何通过静态扫描和运行时 trace 找到启动时候调用的函数,然后修改编译参数完成二进制文件的重新排布。

原理

Page Fault

进程如果能直接访问物理内存无疑是很不安全的,所以操作系统在物理内存的上又建立了一层虚拟内存。为了提高效率和方便管理,又对虚拟内存和物理内存又进行分页(Page)。当进程访问一个虚拟内存 Page 而对应的物理内存却不存在时,会触发一次缺页中断(Page Fault),分配物理内存,有需要的话会从磁盘 mmap 读人数据。


通过 App Store 渠道分发的 App,Page Fault 还会进行签名验证,所以一次 Page Fault 的耗时比想象的要多:



Page Fault

重排

编译器在生成二进制代码的时候,默认按照链接的 Object File(.o)顺序写文件,按照 Object File 内部的函数顺序写函数。


静态库文件.a 就是一组.o 文件的 ar 包,可以用ar -t查看.a 包含的所有.o。



默认布局


简化问题:假设我们只有两个 page:page1/page2,其中绿色的 method1 和 method3 启动时候需要调用,为了执行对应的代码,系统必须进行两个 Page Fault。


但如果我们把 method1 和 method3 排布到一起,那么只需要一个 Page Fault 即可,这就是二进制文件重排的核心原理。



重排之后


我们的经验是优化一个 Page Fault,启动速度提升 0.6~0.8ms。

核心问题

为了完成重排,有以下几个问题要解决:


  • 重排效果怎么样 - 获取启动阶段的 page fault 次数

  • 重排成功了没 - 拿到当前二进制的函数布局

  • 如何重排 - 让链接器按照指定顺序生成 Mach-O

  • 重排的内容 - 获取启动时候用到的函数

System Trace

日常开发中性能分析是用最多的工具无疑是 Time Profiler,但 Time Profiler 是基于采样的,并且只能统计线程实际在运行的时间,而发生 Page Fault 的时候线程是被 blocked,所以我们需要用一个不常用但功能却很强大的工具:System Trace。


选中主线程,在 VM Activity 中的 File Backed Page In 次数就是 Page Fault 次数,并且双击还能按时序看到引起 Page Fault 的堆栈:



System Trace

signpost

现在我们在 Instrument 中已经能拿到某个时间段的 Page In 次数,那么如何和启动映射起来呢?


我们的答案是:os_signpost


os_signpost是 iOS 12 开始引入的一组 API,可以在 Instruments 绘制一个时间段,代码也很简单:


1   os_log_t logger = os_log_create("com.bytedance.tiktok", "performance");2   os_signpost_id_t signPostId = os_signpost_id_make_with_pointer(logger,sign);3   //标记时间段开始4   os_signpost_interval_begin(logger, signPostId, "Launch","%{public}s", "");5   //标记结束6   os_signpost_interval_end(logger, signPostId, "Launch");
复制代码


通常可以把启动分为四个阶段处理:



启动阶段


有多少个 Mach-O,就会有多少个 Load 和 C++静态初始化阶段,用 signpost 相关 API 对对应阶段打点,方便跟踪每个阶段的优化效果。

Linkmap

Linkmap 是 iOS 编译过程的中间产物,记录了二进制文件的布局,需要在 Xcode 的 Build Settings 里开启 Write Link Map File:



Build Settings


比如以下是一个单页面 Demo 项目的 linkmap。



linkmap


linkmap 主要包括三大部分:


  • Object Files 生成二进制用到的 link 单元的路径和文件编号

  • Sections 记录 Mach-O 每个 Segment/section 的地址范围

  • Symbols 按顺序记录每个符号的地址范围

ld

Xcode 使用的链接器件是 ld,ld 有一个不常用的参数-order_file,通过man ld可以看到详细文档:


Alters the order in which functions and data are laid out. For each section in the output file, any symbol in that section that are specified in the order file file is moved to the start of its section and laid out in the same order as in the order file file.


可以看到,order_file 中的符号会按照顺序排列在对应 section 的开始,完美的满足了我们的需求。


Xcode 的 GUI 也提供了 order_file 选项:



order_file


如果 order_file 中的符号实际不存在会怎么样呢?


ld 会忽略这些符号,如果提供了 link 选项-order_file_statistics,会以 warning 的形式把这些没找到的符号打印在日志里。

获得符号

还剩下最后一个,也是最核心的一个问题,获取启动时候用到的函数符号。


我们首先排除了解析 Instruments(Time Profiler/System Trace) trace 文件方案,因为他们都是基于特定场景采样的,大多数符号获取不到。最后选择了静态扫描+运行时 Trace 结合的解决方案。

Load

Objective C 的符号名是+-[Class_name(category_name) method:name:],其中+表示类方法,-表示实例方法。


刚刚提到 linkmap 里记录了所有的符号名,所以只要扫一遍 linkmap 的__TEXT,__text,正则匹配("^\+\[.*\ load\]$")既可以拿到所有的 load 方法符号。

C++静态初始化

C++并不像 Objective C 方法那样,大部分方法调用编译后都是objc_msgSend,也就没有一个入口函数去运行时 hook。


但是可以用-finstrument-functions在编译期插桩“hook”,但由于抖音的很多依赖由其他团队提供静态库,这套方案需要修改依赖的构建过程。二进制文件重排在没有业界经验可供参考,不确定收益的情况下,选择了并不完美但成本最低的静态扫描方案。


  1. 扫描 linkmap 的__DATA,__mod_init_func,这个 section 存储了包含 C++静态初始化方法的文件,获得文件号[ 5]


1   //__mod_init_func2   0x100008060    0x00000008  [  5] ltmp73   //[  5]对应的文件4   [  5] .../Build/Products/Debug-iphoneos/libStaticLibrary.a(StaticLibrary.o)
复制代码


  1. 通过文件号,解压出.o。


1   ➜  lipo libStaticLibrary.a -thin arm64 -output arm64.a2   ➜  ar -x arm64.a StaticLibrary.o
复制代码


  1. 通过.o,获得静态初始化的符号名_demo_constructor


1   ➜  objdump -r -section=__mod_init_func StaticLibrary.o23   StaticLibrary.o:    file format Mach-O arm6445   RELOCATION RECORDS FOR [__mod_init_func]:6   0000000000000000 ARM64_RELOC_UNSIGNED _demo_constructor
复制代码


  1. 通过符号名,文件号,在 linkmap 中找到符号在二进制中的范围:


1   0x100004A30    0x0000001C  [  5] _demo_constructor
复制代码


  1. 通过起始地址,对代码进行反汇编:


 1   ➜  objdump -d --start-address=0x100004A30 --stop-address=0x100004A4B demo_arm64 2 3   _demo_constructor: 4   100004a30:    fd 7b bf a9     stp x29, x30, [sp, #-16]! 5   100004a34:    fd 03 00 91     mov x29, sp 6   100004a38:    20 0c 80 52     mov w0, #97 7   100004a3c:    da 06 00 94     bl  #7016 8   100004a40:    40 0c 80 52     mov w0, #98 9   100004a44:    fd 7b c1 a8     ldp x29, x30, [sp], #1610   100004a48:    d7 06 00 14     b   #7004
复制代码


  1. 通过扫描bl指令扫描子程序调用,子程序在二进制的开始地址为:100004a3c +1b68(对应十进制的 7016)。


1   100004a3c:    da 06 00 94     bl  #7016
复制代码


  1. 通过开始地址,可以找到符号名和结束地址,然后重复 5~7,递归的找到所有的子程序调用的函数符号。


小坑


STL 里会针对 string 生成初始化函数,这样会导致多个.o 里存在同名的符号,例如:


1   __ZNSt3__112basic_stringIcNS_11char_traitsIcEENS_9allocatorIcEEEC1IDnEEPKc
复制代码


类似这样的重复符号的情况在 C++里有很多,所以 C/C++符号在 order_file 里要带着所在的.o 信息:


1   //order_file.txt2   libDemoLibrary.a(object.o):__GLOBAL__sub_I_demo_file.cpp
复制代码


局限性


branch 系列汇编指令除了 bl/b,还有 br/blr,即通过寄存器的间接子程序调用,静态扫描无法覆盖到这种情况。

Local 符号

在做 C++静态初始化扫描的时候,发现扫描出了很多类似 l002 的符号。经过一番调研,发现是依赖方输出静态库的时候裁剪了 local 符号。导致__GLOBAL__sub_I_demo_file.cpp 变成了 l002。


需要静态库出包的时候保留 local 符号,CI 脚本不要执行strip -x,同时 Xcode 对应 target 的 Strip Style 修改为 Debugging symbol:



Strip Style


静态库保留的 local 符号会在宿主 App 生成 IPA 之前裁剪掉,所以不会对最后的 IPA 包大小有影响。宿主 App 的 Strip Style 要选择 All Symbols,宿主动态库选择 Non-Global Symbols。

Objective C 方法

绝大部分 Objective C 的方法在编译后会走objc_msgSend,所以通过 fishhook(https://github.com/facebook/fishhook) hook 这一个 C 函数即可获得 Objective C 符号。由于objc_msgSend是变长参数,所以 hook 代码需要用汇编来实现:


 1   //代码参考InspectiveC 2   __attribute__((__naked__)) 3   static void hook_Objc_msgSend() { 4       save() 5       __asm volatile ("mov x2, lr\n"); 6       __asm volatile ("mov x3, x4\n"); 7       call(blr, &before_objc_msgSend) 8       load() 9       call(blr, orig_objc_msgSend)10       save()11       call(blr, &after_objc_msgSend)12       __asm volatile ("mov lr, x0\n");13       load()14       ret()15   }
复制代码


子程序调用时候要保存和恢复参数寄存器,所以 save 和 load 分别对 x0~x9, q0~q9 入栈/出栈。call 则通过寄存器来间接调用函数:


 1   #define save() \ 2   __asm volatile ( \ 3   "stp q6, q7, [sp, #-32]!\n"\ 4   ... 5 6   #define load() \ 7   __asm volatile ( \ 8   "ldp x0, x1, [sp], #16\n" \ 9   ...1011   #define call(b, value) \12   __asm volatile ("stp x8, x9, [sp, #-16]!\n"); \13   __asm volatile ("mov x12, %0\n" :: "r"(value)); \14   __asm volatile ("ldp x8, x9, [sp], #16\n"); \15   __asm volatile (#b " x12\n");
复制代码


before_objc_msgSend中用栈保存 lr,在after_objc_msgSend恢复 lr。由于要生成 trace 文件,为了降低文件的大小,直接写入的是函数地址,且只有当前可执行文件的 Mach-O(app 和动态库)代码段才会写入:


iOS 中,由于 ALSR(https://en.wikipedia.org/wiki/Address_space_layout_randomization)的存在,在写入之前需要先减去偏移量 slide:


1   IMP imp = (IMP)class_getMethodImplementation(object_getClass(self), _cmd);2   unsigned long imppos = (unsigned long)imp;3   unsigned long addr = immpos - macho_slide
复制代码


获取一个二进制的__text段地址范围:


1   unsigned long size = 0;2   unsigned long start = (unsigned long)getsectiondata(mhp,  "__TEXT", "__text", &size);3   unsigned long end = start + size;
复制代码


获取到函数地址后,反查 linkmap 既可找到方法的符号名。

Block

block 是一种特殊的单元,block 在编译后的函数体是一个 C 函数,在调用的时候直接通过指针调用,并不走 objc_msgSend,所以需要单独 hook。


通过 Block 的源码可以看到 block 的内存布局如下:


 1   struct Block_layout { 2       void *isa; 3       int32_t flags; // contains ref count 4       int32_t reserved; 5       void  *invoke; 6       struct Block_descriptor1 *descriptor; 7   }; 8   struct Block_descriptor1 { 9       uintptr_t reserved;10       uintptr_t size;11   };
复制代码


其中 invoke 就是函数的指针,hook 思路是将 invoke 替换为自定义实现,然后在 reserved 保存为原始实现。


1   //参考 https://github.com/youngsoft/YSBlockHook2   if (layout->descriptor != NULL && layout->descriptor->reserved == NULL)3   {4       if (layout->invoke != (void *)hook_block_envoke)5       {6           layout->descriptor->reserved = layout->invoke;7           layout->invoke = (void *)hook_block_envoke;8       }9   }
复制代码


由于 block 对应的函数签名不一样,所以这里仍然采用汇编来实现hook_block_envoke


 1   __attribute__((__naked__)) 2   static void hook_block_envoke() { 3       save() 4       __asm volatile ("mov x1, lr\n"); 5       call(blr, &before_block_hook); 6       __asm volatile ("mov lr, x0\n"); 7       load() 8       //调用原始的invoke,即resvered存储的地址 9       __asm volatile ("ldr x12, [x0, #24]\n");10       __asm volatile ("ldr x12, [x12]\n");11       __asm volatile ("br x12\n");12   }
复制代码


before_block_hook中获得函数地址(同样要减去 slide)。


1   intptr_t before_block_hook(id block,intptr_t lr)2   {3       Block_layout * layout = (Block_layout *)block;4       //layout->descriptor->reserved即block的函数地址5       return lr;6   }
复制代码


同样,通过函数地址反查 linkmap 既可找到 block 符号。

瓶颈

基于静态扫描+运行时 trace 的方案仍然存在少量瓶颈:


  • initialize hook 不到

  • 部分 block hook 不到

  • C++通过寄存器的间接函数调用静态扫描不出来


目前的重排方案能够覆盖到 80%~90%的符号,未来我们会尝试编译期插桩等方案来进行 100%的符号覆盖,让重排达到最优效果。

整体流程


流程


  1. 设置条件触发流程

  2. 工程注入 Trace 动态库,选择 release 模式编译出.app/linkmap/中间产物

  3. 运行一次 App 到启动结束,Trace 动态库会在沙盒生成 Trace log

  4. 以 Trace Log,中间产物和 linkmap 作为输入,运行脚本解析出 order_file

总结

目前,在缺少业界经验参考的情况下,我们成功验证了二进制文件重排方案在 iOS APP 开发中的可行性和稳定性。基于二进制文件重排,我们在针对抖音的 iOS 客户端上的优化工作中,获得了约 15%的启动速度提升。


抽象来看,APP 开发中大家会遇到这样一个通用的问题,即在某些情况下,APP 运行需要进行大量的 Page Fault,这会影响代码执行速度。而二进制文件重排方案,目前看来是解决这一通用问题比较好的方案。


未来我们会进行更多的尝试,让二进制文件重排在更多的业务场景落地。


本文转载自公众号字节跳动技术团队(ID:toutiaotechblog)。


原文链接


https://mp.weixin.qq.com/s/Drmmx5JtjG3UtTFksL6Q8Q


2020-01-22 10:006369

评论 3 条评论

发布
用户头像
抖音优化都二进制了,为啥和Facebook 启动速度差距那么大。
2022-05-27 11:37
回复
用户头像
能不能把脚本一起放出来?
2020-03-17 10:46
回复
用户头像
太强了
2020-01-22 16:03
回复
没有更多了
发现更多内容

3.17线上|Azure 中国新区域发布会,携创新而来!

白玉兰开源

云计算

如何写好单元测试

TroyLiu

Java 单元测试 解耦 测试原则 好的测试是什么样的

“元宇宙”与“数字孪生”

CECBC

区块链能否助力版权“突围”?

CECBC

OpenHarmony移植:XTS子系统之应用兼容性测试套件

华为云开发者联盟

OpenHarmony 移植 XTS子系统 acts 测试套件

WPF 项目版本控制以及布局控件

神农写代码

HBase海量数据高效入仓解决方案

vivo互联网技术

数据库 HBase

#yyds内容盘点# 一文带你搞懂Python中变量与常量

程序媛可鸥

Python 人工智能 面试

面向编排的运维在阿里的应用 |阿里巴巴DevOps实践指南

阿里云云效

云计算 阿里云 运维 云原生 部署与维护

WPF -资源引用、资源字典引用以及容器模板和数据模板

神农写代码

智慧城市解决方案提供商万达信息加入龙蜥社区

OpenAnolis小助手

开源 智慧城市 万达集团

# yyds内容盘点 # 一文教会你Python中三种简单函数的使用

程序媛可鸥

Python 人工智能 面试

【CAD】系列Ⅱ

謓泽

3月月更

WPF 与 Winform 的区别以及应用场景

神农写代码

云平台是什么?知名云平台有哪些?

行云管家

云计算 阿里云 云服务 云平台

阿里云移动研发平台EMAS:2月产品动态

移动研发平台EMAS

阿里云 程序员 emas 移动端 研发工具

建木持续集成平台v2.2.4发布

Jianmu

运维 持续集成 开源社区 自动化平台 建木CI

java培训:使用 Disruptor 做springboot内部消息队列

@零度

JAVA开发 springboot

4 月亚马逊云科技培训与认证课程,精彩不容错过!

亚马逊云科技 (Amazon Web Services)

架构师 培训 认证

petite-vue源码剖析-双向绑定`v-model`的工作原理

CRMEB

隐私计算技术栈的融合使用之路还很远

易观分析

隐私计算

元宇宙,帮助土耳其奶牛产了更多奶?

CECBC

墨天轮国产数据库沙龙 | 四维纵横姚延栋 :MatrixDB,All-in-One高性能时序数据库

墨天轮

数据库 时序数据库 国产数据库 MatrixDB

CRM复杂业务场景的低代码开发实践

鲸品堂

低代码

中科柏诚本地生活引数字化活水,解银行疫情期困局

联营汇聚

Figma 封禁大疆,并封停所有被美国制裁名单公司账号

PingCode

web前端培训:Node的重新认识

@零度

前端开发 Node

it运维工程师的工作是做什么的?累吗?

行云管家

运维 服务器 IT IT运维

中小型企业CRM系统有哪些好处

低代码小观

销售管理 企业管理 CRM系统 客户关系管理系统 企业管理软件

为什么MySQL主键查询这么快?

蝉沐风

MySQL 索引 主键查询

WPF-依赖属性、依赖附加属性以及类型转换

神农写代码

  • 扫码加入 InfoQ 开发者交流群
抖音研发实践:基于二进制文件重排的解决方案,APP启动速度提升超15%_安全_字节跳动技术团队_InfoQ精选文章