一、 概述
LLVM
是架构编译器的框架系统,由C++
编写而成。由于优化以任意程序语言编写的程序的编译时间(complie-time)
、链接时间(link-time)
、运行时间(run-time
)以及空闲时间(idle-time)
。对开发者保持开放,并兼容已有的脚本。
二、LLVM设计结构
传统的LLVM设计结构如下:
分为 源码、前端、优化器、后端、以及机器识别语言等几部分。
2.1 前端编译器(Frontend)
前端编译器的任务是解析源代码
。它会进行相应的:词法分析
、语法分析
、语义分析
。检查源代码是否存在语法错误,然后构建抽象语法树(Abstract Syntax Tree,AST)
,LLVM
的前端编译器还会生成中间代码((intermediate representation,IR)
.
2.2 优化器(optimizer)
优化器负责进行各种优化,改善代码的运行时间。例如消除冗余计算等。
2.3后端(backend)
将代码映射带目标指令集,生成机器语言,并且进行机器相关的代码优化。
2.4 iOS的编译架构
Objective C、C、C++使用的编译器前端是clang,Swift 的编译器前端是swift,后端都是LLVM.
2.5 LLVM的设计
当编译器决定支持多种语言或多种硬件架构时,LLVM的最重要的时刻就来了。其他的编译器如GCC,它方法非诚成功,但是由于它是作为整体程序设计的,因此它的用途受到了很大的限制。
LLVM设计最重要的地方是、使用通过代码形式(IR)、是用来在编译器中表示代码的形式。所以LLVM可以为任何编程语言独立编写前端,并且可以为任意硬件架构独立编写后端。
2.6 Clang
clang是LLVM的项目中的一个子项目,它是基于LLVM架构的轻量级编译器,诞生之初是为咯替换GCC,提供更快的编译速度,它属于LLVM的前端编译器。
三,LLVM的编译过程
3.1 LLVM的编译步骤
现在我们新建一个空项目,创建一个命令行的项目,然后写一些相关的代码
#import <stdio.h>
#define C 30
int main(int argc, const char * argv[]) {
int a = 10;
int b = 20;
printf("%d \n",a + b + C);
return 0;
}
然后我们在该工程的目录下创建终端命令:
然后我们看看LLVM进行编译的过程中要执行的相关步骤命令
clang -ccc-print-phases main.m
执行结果如下:
0: input, "main.m", objective-c
1: preprocessor, {0}, objective-c-cpp-output
2: compiler, {1}, ir
3: backend, {2}, assembler
4: assembler, {3}, object
5: linker, {4}, image
6: bind-arch, "x86_64", {5}, image
- step1 :输入文件,找到源文件
- stem2:预处理阶段,这个过程包括宏定义的替换,头文件的导入和展开。
- step3:编译阶段,进行词法分析、语法分析、检测语法是否正确生成IR.
- step4:后端,这里LLVM会通过一个一个的Pass去优化,每个Pass做一些事情,最终生成汇编代码。
- step5 生成目标文件,
- step6 链接,链接需要的动态库和静态库,生成可执行文件。
- step7 通过不同的架构,生成对应的可执行文件
3.2 预处理阶段(preprocessor)
我们执行以下命令
clang -E main.m -o main2.m
我们会看到和main
文件同级目录下多了一个main2.m的文件,我们打开改文件会发现和之前的main有所不一样了,不一样之处如下图
我们看到预编译阶段,文件的行数变得多了很多,所以并且之处的宏定义C
已经替换为30。这就是预编译过程的事情,
3.3 词法分析
预处理阶段过后就会进行词法分析,这里会把每个代码切成一个一个的token,这里我们只需要执行以下命令
clang -fmodules -fsyntax-only -Xclang -dump-tokens main.m
这样 在终端就会生成一行一行的代码
这样,我们程序就被切成一个一个的token 包括空格和标点符号,以及具体对应的代码位置都被token标注的清清楚楚。
3.4 生成语法树
由上一步生成的语法树,我们只需要执行命令
clang -fmodules -fsyntax-only -Xclang -ast-dump main.m
语法树的生成如下
3.6 生成中间代码
对于以上生成中间的代码。我们需要执行命令
clang -S -fobjc-arc -emit-llvm main.m
执行完成过后我们能看到和main.m文件同级的目录中多了的main.ll的文件,这就是IR的格式文件
我们用WebStorm打开改文件如图
相关的关键之解析
@:全局标识
% 局部标识
alloca 开辟内存空间
align 字节对齐
store 写入内存load 肚内存
call 调用函数
ret 返回值
i32 int 4个字节
3.7 IR的优化方式
LLVM的优化级别分别是-O0、-O1、-O2、-O3、-Os(第一个字母必须大写)
执行命令
clang -Os -S -fobjc-arc -emit-llvm main.m -o main.ll
3.8 bitCode
通过编译生成的中间代码生成bitCode执行指令
clang -emit-llvm -c main.ll -o main.bc
3.9 生成汇编代码
通过生成的bitCode 或者中间代码生成汇编代码如下
clang -S -fobjc-arc main.bc -o main.s
clang -S -fobjc-arc main.ll -o main.s
生成的汇编代码也可以进行优化
clang -Os -S -fobjc-arc main.m -o main.s
3.10 生成目标文件
生成目标文件的执行指令
clang -fmodules -c main.s -o main.o
通过nm指令,查看main.o文件
$xcrun nm -nm main.o
3.11 生成可执行文件(链接)
命令如下
clang main.o -o main
再次可以通过nm命令查看,可以看到完全不一样的结果。
四、总结
以上就是对LLVM的初探的整个过程,虽然有些内容自己还没去验证,但是大致流程就这样,这也是先记录然后自我学习的一个过程,希望在每天的学习过程中进步一点点吧,有什么不足的地方还请多多指正。觉得有用的就借鉴一下,如果觉得没用的请越过。