编译和链接

(摘自《程序员的自我修养》)

1. 被隐藏了的过程

  当我们使用gcc来编译一个程序时,例如

gcc hello.c

  运行结束后会生成一个可执行文件,事实上,该命令执行成功的背后可分为四个步骤:预处理(Prepressing)编译(Compilation)汇编(Assembly)链接(Linking)

1.1 预编译

  预编译主要处理那些源代码文件中以“#”开始的预编译指令。比如“#include”、“#define”等,主要处理规则如下:

  • 将所有的“#define”删除,并且展开所有宏定义。
  • 处理所有条件预编译指令,例如“#if”、“#else”、“#endif”等。
  • 处理“#include”预编译指令,将被包含的文件插入到该预编译指令的位置。这个过程是递归进行的。
  • 删除所有的注释代码。
  • 添加行号和文件名标识,以便于编译时编译器产生调试用的行号信息及用于编译时产生编译错误或警告时能显示行号。
  • 保留所有的“#pragma”编译器指令,因为编译时编译器须使用它们。

1.2 编译

  编译就是把预处理后的文件进行一系列词法分析、语法分析、语义分析和优化后生成相应的汇编代码文件。

1.3 汇编

  汇编器是将汇编代码转变成机器可以执行的指令,每一条语句基本都对应一条机器指令。

1.4 链接

  先关注一下上面的内容,再来分析链接过程。

2. 编译器做了什么

  编译过程一般可以分为6步:扫描、语法分析、语义分析、源代码优化、代码生成和目标代码优化。

2.1 词法分析

  首先源代码程序被输入到扫描器,扫描器的任务很简单,它只是简单地进行词法分析,运用一种类似于有限状态机的算法可以很轻松地将源代码的字符序列分割成一系列的记号。这些记号一般分为如下几类:关键字、标识符、字面量(包含数字和字符串等)和特殊符号(如加号、等号)。在识别记号的同时,扫描器也完成了其他工作。比如将标识符存放到符号表,将数字、字符串常量存放到文字表等,已被后面的步骤使用。

2.2 语法分析

  接下来语法分析器将对扫描器产生的记号进行语法分析,从而产生语法树。整个分析过程采用了上下文无关语法的分析手段。简单地讲,由语法分析器产生的语法树就是以表达式为节点的树。在这个阶段,如果出现了表达式不合法,比如括号不匹配,表达式中缺少操作符等,编译器就会报告语法分析阶段的错误。

2.3 语义分析

  语法分析器仅仅完成了对表达式的语法层面的分析,但它并不了解这个语句是否真正有意义。比如C语言里面两个指针做乘法运算是没有意义的,但是这个语句在语法上是合法的,编译器能够分析的语义是静态语义,所谓的静态语义是指在编译期可以确定的语义,与之对应的动态语义就是只有在运算期才能确定的语义。
  静态语义通常包括声明和类型的匹配,类型的转换,比如当一个浮点型的表达式转换为一个整型的表达式时,其中隐含了一个从浮点型到整型的转换过程,语义分析中需要完成这个步骤。比如将一个浮点型赋值个一个指针时,语义分析程序会发现这个类型不匹配,编译器将会报错。动态语义一般指在运行期出现的语义相关的问题,比如将0作为除数是一个运行期语义错误。
  经过语义分析之后,整个语法树表达式都被标识了类型,如果有些类型需要做隐式转换,语义分析程序会在语法树中插入相应的转换节点。

2.4 中间语言生成

  中间代码是由源代码优化器通过转化语法树生成的,它是语法树的顺序表示,已经非常接近目标代码了。但是它一般跟目标机器和运行时环境是无关的,比如它不包含数据的尺寸、变量地址和寄存器的名字等。中间代码有多种类型,比较常见的有P-代码三地址码,最基本的三地址码是这样的:

x = y op z

  这个三地址码表示将y和z进行op操作后赋值给x。
  假设存在代码如下:

array[index] = (index + 4) * (2 + 6)

  这段代码生成的语法树转换成中间代码为:

t1 = 2 + 6
t2 = index + 4
t3 = t2 * t1
array[index] = t3

  为了使所有的操作都符合三地址码形式,这里采用了几个临时变量:t1、t2和t3,在三地址码基础上进行优化时,优化程序会将(2+6)的结果计算出来,得到t1=8,然后将后面的t1替换为8,还可以省去一个临时变量t3,因为t2可以重复使用,经过优化以后的代码如下:

t2 = index + 4
t2 = t2 * 8 
array[index] = t2

  中间代码使得编译器可以被分为前端和后端。编译器前端负责产生机器无关的中间代码,编译器后端将中间代码转换成目标机器代码。这样对于一些可以跨平台的编译器而言,它们可以针对不同的平台使用同一个前端和针对不同机器平台的数个后端。

2.5 目标代码生成和优化

  源代码级优化器产生中间代码标志着下面的过程都属于编辑器后端。编译器后端主要包括代码生成器和目标代码优化器。代码生成器将中间代码生成目标机器代码,这个过程十分依赖于目标机器,因为不同机器有着不同的字长、寄存器、整数数据类型和浮点数数据类型等。对于上面例子的中间代码,代码生成器可能会生成下面的代码序列(用x86汇编语言表示):

movl index, %ecx          ;将index的值写入ecx寄存器
addl $4, %ecx             ;ecx = ecx + 4
mull $8, %ecx             ;ecx = ecx * 8
movl index, %eax          ;将index的值写入eax寄存器
movl %ecx, array(,eax,4)  ;array[index] = ecx

  最后目标代码优化器对上述的目标代码进行优化,
。。。未完待续

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,968评论 6 482
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,601评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 153,220评论 0 344
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,416评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,425评论 5 374
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,144评论 1 285
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,432评论 3 401
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,088评论 0 261
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,586评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,028评论 2 325
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,137评论 1 334
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,783评论 4 324
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,343评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,333评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,559评论 1 262
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,595评论 2 355
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,901评论 2 345

推荐阅读更多精彩内容