入口函数和程序初始化
程序从 main 开始的吗?
程序从 main 函数开始。但是事情的真相真是如此吗?如果你善于观察,就会发现当程序执行到 main
函数的第一行时,很多事情都已经完成了。
#include <stdio.h>
#include <stdlib.h>
int a = 2;
int main(int argc, char* argv[])
{
int * p = (int *)malloc(sizeof(int));
scanf("%d", p);
printf("%d", a + * p);
free(p);
}
从代码中我们可以看到,在程序刚刚执行到 main
函数的时候,全局变量的初始化进程已经结束了(a 的值已经确定),main
函数的两个参数(argc 和 argv)也被正确传了进来。此外,在你不知道的时候,堆和栈的初始化也悄悄地完成了,一些系统 I/O 也被初始化了,因此可以放心地使用 printf
和 malloc
。
操作系统装载程序之后,首先运行的代码并不是 main
的第一行,而是某些别的代码,这些代码负责准备好 main
函数执行所需要的环境,并且负责调用 main
函数,这时候你才可以在 main
函数里放心大胆地写各种代码:申请内存、使用系统调用、触发异常、访问I/O。在 main
返回之后,它会记录 main
函数的返回值,调用 atexit
注册的函数,然后结束进程。
运行这些代码的函数称为 入口函数或入口点(Entry Point),视平台的不用而有不同的名字。程序的入口点实际上是一个程序的初始化和结束部分,它往往是运行库的一部分。一个典型的程序运行步骤大致如下:
- 操作系统在创建进程后,把控制权交到了程序的入口,这个入口往往是运行库中的某个入口的函数。
- 入口函数对运行库和程序运行环境进行初始化,包括堆、I/O、线程、全局变量构造,等等。
- 入口函数在完成初始化之后,调用
main
函数,正式开始执行程序的主体部分。 -
main
函数执行完毕以后,返回到入口函数,入口函数进行清理工作,包括全局变量析构、堆销毁、关闭I/O等,然后进行系统调用结束进程。
入口函数如何实现
大部分程序员在平时都接触不到入口函数,为了对入口函数进行详细的了解,接下来我们介绍一下微软(MS)的VC运行库 MSVC
。Linux的VC运行库 glibc
道理基本一致。
MSVC
的 CRT
默认的入口函数名为 mainCRTStartup
。mainCRTStartup
的总体流程为:
- 初始化和
OS
版本有关的全局变量。 - 初始化堆。
- 初始化
I/O
。 - 获取命令行参数和环境变量。
- 初始化
C
库的一些数据。 - 调用
main
并记录返回值。 - 检查错误并将
main
的返回值返回。
运行库
我们知道,C++
这样的语言的实现时跟编译器密切相关的,而 glibc
只是一个 C
语言运行库,它对 C++
的实现并不了解。而 GCC
是 C++
的真正实现者,它对 C++
的全局构造和析构了如指掌。于是它提供了两个目标文件 crtbeginT.o
和 crtend.o
来配合 glibc
实现 C++
的全局构造和析构。事实上 crti.o
和 crtn.o
中的 ".init"
和 ".finit"
提供一个在 main()
之前和之后运行代码的机制 ,而真正构造和析构则由 crtbeginT.o
和 crtend.o
来实现。
运行库与多线程
线程局部存储实现
很多时候,开发者在编写多线程程序的时候希望存储一些线程私有的数据。我们知道,属于每个线程私有的数据包括线程的栈和当前的寄存器,但是这两种存储都是非常不可靠的,栈会在每个函数退出和进入的时候被改变;而寄存器更是少得可怜,我们不可能拿寄存器去存储所需要的数据。假设我们要在线程中使用一个全局变量,但希望这个全局变量是线程私有的,而不是所有线程共享的,该怎么办呢?这时候就须要用到 线程局部存储(TLS,Thread Local Storage) 这个机制了。TLS 的用法很简单,如果要定义一个全局变量为 TLS 类型的,只需要在它定义前加上相应的关键字即可。
我们知道对于一个 TLS 变量来说,它有可能是一个 C++
的全局变量,那么每个线程在启动时不仅仅是复制 .tls
的内容那么简单,还需要把这些 TLS 对象初始化,必须逐个地调用它们的全局构造函数,而且当线程退出时,还要逐个地将它们析构,正如普通的全局对象在进程启动和退出时都要构造、析构一样。