标识符
LLVM的标识符有两类:全局标识符和局部标识符。全局标识符以符号@开头,局部标识符由符号%开头。此外,标识符还有三种格式:
- 命名的值由前缀(@或者%)加字符串表示,比如%foo等。识别变量的正则表达式为[%@][-a-zA-Z$._][-a-zA-Z$._0-9]*。
- 未命名的值由签注加无符号数字表示,比如%2等。
- 常量
标识符由前缀开头有两个方面的原因:一是编译器不用担心其与保留字冲突;二是编译器可以方便的给未命名的值设置临时变量而不需要考虑符号表冲突。
LLVM的其他特点:
- 注释以;开始,持续被该行的结束
- 当计算结果没有分配给指定值时,就会创建未命名的临时变量。
- 未命名的临时文件是按顺序编号的,从0开始。
模块
LLVM程序有模块组成,每个输入程序都对应一个模块。模块包括函数、全局变量和符号表。多个模块可以被LLVM 链接器(linker)组合在一起。
链接类型
全局的值(全局变量和函数)都由指向某个特定位置的指针表示,并且有一个链接类型:
private。private类型的全局变量只能被当前模块内的对象直接访问。而且,当将代码链接到一个包含private类型值的模块的时候,这个private值可能被重命名以避免冲突。由于这个值是模块私有的,所以所有的引用都可以直接更新。private的值不会出现在目标代码的符号表中。
internal。与private类似,不过它的值会作为局部变量出现在目标文件中。类似C语言中static的概念。
available_externally。该类型的变量不会被输出到对应模块的目标文件中。对于链接者来说,该类型相当于一个外部声明。这种类型只允许在定义时使用,而不能在声明时使用。
linkonce。链接时,这种类型的变量会和其他同名变量merge。该类型的变量如果没被使用则可以被丢弃。这种类型的函数不允许优化器将其内联到调用者的函数体中,这个它有可能被重写。如果想允许内联或者其他优化,请使用“linkonce_odr”类型
weak。与linkonce类似,但即使不被使用,也不能丢弃。类似C语言中的“weak”类型的变量(多个变量拥有相同的名字不会造成冲突,只要其中一个是weak类型的。链接时,weak类型的定义被忽略而使用正常的定义,如果没有正常的定义,则使用weak的定义)。
common。与weak类似,用于C语言中的临时定义,比如全局作用域中的“int x;”。函数和别名没有common类型
appending。只用于数组类型的指针。两个这种类型的变量链接时,对应的全局数组被连接在一起。
extern_weak。这种类型在链接之前是weak的,如果不被链接,这个变量是null而不是undefined reference。
linkonce_odr, weak_odr。ODR(one definition rule),只有等效的变量才能被merge。这个链接类型就表示只能跟等效的变量合并。
external。如果没有指定上面的任意类型,那么就是external的。
函数声明只能使用external或者extern_weak。
调用约定
LLVM支持的调用约定如下:
- "ccc",C调用约定。如果没有指定其他类型,那么就默认是这种类型。这个类型支持可变参数的函数调用并且允许声明的原型和函数声明的实现之间有一些不匹配。
- "fastcc",快速调用约定。使生成的目标代码尽可能快,可以使用任意tricks。不支持可变参数,并且原型和实现要严格匹配。
- "coldcc",冷调用。假定这种调用不经常发生。不支持可变参数,并且原型和实现要严格匹配。
- “cc 10”,GHC调用。 Glasgow Haskell Compiler 专用。支持尾调用优化,但是要求caller和callee都是它。
- “cc 11”,HiPE调用约定。
- "webkit_jscc", webkit的js调用约定。
- “anyregcc” ,代码补丁的动态调用。
- “preserve_mostcc”,PreserveMost调用约定。目前是实验性的,未来会被objectiveC使用。
- “preserve_allcc”。也是实验性的。
- “cxx_fast_tlscc”。Clang生成访问函数去访问C++风格的TLS。访问函数包括入口块、出口块和初始化块,入口和出口块可以访问一些TLS IR变量。这个调用约定就是通过保留尽可能多的寄存器变量来降低这种访问的开销。
- “swiftcc”,Swift语言的调用约定。
- “cc <n>”,从64开始。
可见性
所有的全局变量和函数都有一种可见性样式:
- “default”,默认样式。对于使用ELF(Executable and Linking Format)格式的目标文件,这种可见性样式意味着声明对其他模块可见;在共享库中,意味着声明的实体可以被重写;在Darwin,声明对其他模块可见。
- “hidden”,具有这种可见性样式的声明引用相同的对象,如果它们在相同的共享对象中的话。通常,具有这种可见性样式的符号不会出现在动态符号表中,所有其他模块不能直接引用它。
- “pretected”,对于ELF,这种样式表明符号会放置在动态符号表中,但是在定义这个符号的模块中的引用会绑定到局部变量,也就是说这个符号不能被其他模块重写。
用于internal或者private链接类型的符号必须是default类型的。
以前一直使用rose,最近要转到LLVM了。本文是官方LLVM IR文档的翻译,本人能力有限,如有错漏,欢迎批评指正。