在前面的文章程序的链接(一)提到,链接的第一步就是符号的解析。要理解符号的解析过程,得先搞明白以下几点:
- 什么是符号
- 什么是符号的定义,什么是符号的引用
- 链接符号的类型有哪些,各自有什么特点
- 符号表的结构
- 链接器对符号的解析规则
下面就来一步步搞明白这些点。
符号就是其实程序中的变量名、函数名。
符号的定义和引用,可见下图:
注意:局部变量temp分配在栈中,不会在函数外部被引用,因此不是符号定义。
链接符号的类型
每个可重定位目标模块m都有一个符号表,它包含了在m中定义和引用的符号。有三种链接器符号:
- Global symbols(模块内部定义的全局符号)
由模块m定义并能被其他模块引用的符号。例如,非static C函数和非static C全局变量
如,main.c 中的全局变量名buf
- External symbols(外部定义的全局符号)
由其他模块定义并被模块m引用的全局符号
如,main.c 中的函数名swap
- Local symbols(本模块的局部符号)
仅由模块m定义和引用的本地符号。例如,在模块m中定义的带static的C函数和全局变量
如,swap.c中的static变量名bufp1.
注意:链接器的局部符号不是指程序中的局部变量(分配在栈中的临时性变量),链接>器不关心这种局部变量
链接器的符号类型,示例如下:
目标文件中的符号表
目标文件的.symtab节记录着符号表信息,符号表示一个结构体数组,每个表项(16字节)的结构如下:
使用readelf -s 可查看目标文件的符号表信息,以上面的main.o和swap.o为例:
符号定义的本质
符号定义的本质是:指被分配了存储空间。如果是函数名则指代码所在区;如果是变量名则指其所在的静态数据区。
所有定义的符号的值就是其目标所在的首地址。
因此,符号的解析就是将符号引用和符号定义建立关联后,将引用符号的地址重定位为相关联的符号定义的地址。
全局符号的强、弱
全局符号有强、弱的特性。
- 强符号:函数名和已初始化的全局变量名是强符号。
- 弱符号:未初始化的全局变量名是弱符号。
举例如下:
链接器对符号的解析规则
符号解析时,只能有一个确定的定义(即每个符号仅占一处存储空间)。
所以,如果碰到符号存在多重定义时,就得有相应的处理规则:
- Rule 1:强符号不能多次定义
强符号只能被定义一次,否则链接错误。
- Rule 2:若一个符号被定义为一次强符号和多次弱符号,则按强符号定义为准。
- Rule 3:若有多个弱符号定义,则任选其中一个。
使用命令 gcc -fno-common链接时,会告诉链接器在遇到多个弱定义的全局符号时输出一条警告信息。
下面是几个多重定义符号的解析示例:
关于全局符号的多重定义的问题:
- 尽量避免使用全局变量
- 一定要使用的话,就按以下规则使用
- 尽量使用本地变量(static)
- 全局变量要赋初值
- 外部全局变量要使用extern
多重定义全局变量会造成一些意想不到的错误,而且是默默发生的,编译系统不会警告,并会在程序执行很久后才能表现出来,且远离错误处。特别是在模块很多的大型软件中,这类错误很难修正。
以上,就是关于符号和符号表的要点,接下来就可以继续了解符号解析的过程了。