在写这篇文章之前,对于很多专业课里学过的概念都模糊了,所以特地去把《计算机操作系统(第四版)》这本书翻了出来,重新梳理脑子里快忘完的基础概念。
在说多线程之前我们先来了解一下进程,因为进程和线程是密切相关的,在了解了进程之后,可以更好地帮助我们理解线程。
一、进程的基本概念
在传统的操作系统中,为了提高资源利用率和系统吞吐量,通常采用多道程序技术,将多个程序同时装入内存,并使之并发运行,传统意义上的程序不能再独立运行。此时,作为资源分配和独立运行的基本单位都是进程。操作系统所具有的四大特征也都是基于进程而形成的,并从进程的角度进行研究。可见,在操作系统中,进程是一个极其重要的概念。
1、进程(或程序)的顺序执行和并发执行
1.1 程序顺序执行
通常一个应用程序由若干个程序段组成,每一个程序段完成特定的功能,它们在执行时,都需要按照某种先后次序顺序执行,仅当前一段程序段执行完后,才运行后一程序段。
例如:
S1: a:=x+y;
S2: b:=a-5;
S3: c:=b+1;
其中,语句S2必须在语句S1后(即a被赋值)才能执行,语句S3也只能在b被赋值后才能执行,因此,三条语句存在着这样的前趋关系:S1-->S2-->S3
由上述可知,在程序顺序执行时具有这样三个特征:
(1) 顺序性:指处理机严格地按照程序所规定的顺序执行,即每一操作必须在下一个操作开始之前结束;
(2)封闭性:指程序在封闭的环境下运行,即程序运行时独占全机资源,资源的状态(除初始状态外)只有本程序才能改变它,程序一旦开始执行,其执行结果不受外界因素影响;
(3)可再现性:指只要程序执行时的环境和初始条件相同,当程序重复执行时,不论他是从头到尾不停顿执行,还是“走走停停”地执行,都可获得相同的结果。程序顺序执行时的这种特性,为程序员检测和校验程序的错误带来了很大的方便。
1.2 程序并发执行
程序顺序执行时,虽然可以给程序员带来方便,但系统资源的利用率却很低。为此,在系统中引入了多道程序技术,使程序或程序段间能并发执行。然而并非所有的程序都能并发执行。事实上,只有不存在前趋关系的程序之间才有可能并发执行,否则无法并发执行。
例如:
S1: a:=x+2;
S2: b:=y+5;
S3: c:=b+a;
S4: d:=c+b;
通过上面的程序段我们可以看出:S3必须在a和b被赋值后方能执行;S4必须在S3之后执行;但S1和S2则可以并发执行,因为它们彼此互不依赖。
在引入了程序间的并发执行功能后,虽然提高了系统的吞吐量和资源利用率,但由于它们共享系统资源,以及它们为完成同一项任务而相互合作,致使在这些并发执行的程序之间必将形成相互制约的关系,由此会给程序并发执行带来新的特征。
(1)间断性:程序在并发执行时,由于它们共享系统资源,以及为完成同一项任务而相互合作,致使在这些并发执行的程序之间形成了相互制约的关系,从而形成“执行——暂停——执行”这种间断性的活动规律。
(2)失去封闭性:当系统中存在着多个可以并发执行的程序时,系统的各种资源就会被它们共享,而这些资源的状态也由这些程序来改变,致使其中任一程序在运行时,其环境会受到其它程序的影响。
(3)不可再现性:程序在执行并发时,由于失去了封闭性,也就将导致其失去可再现性。
2、进程的概念
1.进程的定义
为了使参与并发执行的每个程序(含数据)都能独立地运行,在操作系统中必须为之配置一个专门的数据结构,称之为进程控制块(Progress Control Block,PCB)。系统利用PCB来描述进程的基本情况和活动过程进而控制和管理进程。这样,由程序段、相关的数据段和PCB三部分便构成了进程实体(又称进程映像)。一般情况下,我们把进程实体简称为进程,例如,所谓的创建进程就是创建进程实体中的PCB;而撤销进程实质上是撤销进程的PCB。
对于进程的定义,从不同的角度可以有不同的定义,其中较典型的定义有:
(1)进程是程序的一次执行。
(2)进程是一个程序及其数据在处理机上顺序执行时所发生的活动。
(3)进程是具有独立功能的程序在一个数据集合上运行的过程,它是系统进行资源分配和调度的一个独立单位。
在引入进程实体的概念后,我们可以把传统OS中的进程定义为:“进程是进程实体的运行过程,是系统进行资源分配和调度的一个基本单位。”
二、线程的基本概念
在20世纪60年代中期,人们在设计多道程序OS时,引入了进程的概念,从而解决了在单处理机环境下的程序并发执行问题。此后长达20年的时间里,在多道程序OS中一直是以进程作为能拥有资源和独立调度(运行)的基本单位的。直到80年代中期,人们又提出了比进程更小的基本单位——线程的概念,试图用它来提高程序并发执行的程度,以进一步改善系统的服务质量。特别是在进入20世纪90年代后,多处理机系统得到迅速发展,由于线程能更好地提高程序的并行执行程度,因而近几年推出的多处理机OS无一例外地都引入了线程,用以改善OS性能。
1.线程的引入
如果说,在OS中引入进程的目的是为了使多个程序能并发执行,以提高资源利用率和系统吞吐量,那么,在操作系统中再引入线程,则是为了减少程序在并发执行时所付出的时空开销,使OS具有更好的并发性。
2.线程与进程的比较
由于线程具有许多传统进程所具有的特征,所以又称之为轻型进程(Light-Weight-Process)或进程元,相应地,把传统进程称之为重型进程(Heavy-Weight-Process)。它相当于只有一个线程的任务。
(1)调度的基本单位
在传统的OS中,进程是作为独立调度和分派的基本单位,因而进程是独立运行的基本单位。在每次被调度时,都需要进行上下文切换,开销较大。而在引入线程的OS中,已把线程作为调度和分配的基本单位,因而线程是能独立运行的基本单位。当线程切换时,仅需设置和保存少量寄存器内容,切换代价远低于进程。在同一进程中,线程的切换不会引起进程的切换,但从一个进程中的线程切换到另一个进程中的线程时,必然就会引起进程的切换。
(2)并发性
在引入线程的OS中,不仅进程直接可以并发执行,而且在一个进程中的多个线程之间亦可并发执行,甚至还允许在一个进程中的所有现场都能并发执行。同样,不同进程中的线程也能并发执行。这使得OS具有更好的并发性,从而能更加有效地提高系统的资源利用率和系统的吞吐量。
(3)拥有资源
进程可以拥有资源,并作为系统中拥有资源的一个基本单位。然而,线程本身并不拥有系统资源,而是仅有一点必不可少的,能保证独立运行的资源。比如,在每个线程中都保留局部变量。少数状态参数和返回地址等的一组寄存器和堆栈。
线程除了拥有自己的少量资源外,还允许多个线程共享该进程所拥有的资源,这首先表现在:属于同一进程的所有线程都具有相同的地址空间,这意味着,线程可以访问该地址空间中的每一个虚地址;此外,还可以访问进程所拥有的资源,如已打开的文件、定时器、信号量机构等的内存空间和它所申请到的I/O设备等。
(4)独立性
在同一进程中的不同线程之间的独立性要比不同进程之间的独立性低得多。这是因为,为防止进城之间彼此干扰和破坏,每个进程都拥有一个独立的地址空间和其它资源,除了共享全局变量以外,不允许其它进程的访问。但是同一进程中的不同线程往往是为了提高并发性以及进行相互之间的合作而创建的,它们共享进程的内存地址空间和资源,如每个线程都可以访问他们所属进程地址空间中的所有地址,如一个线程的堆栈可以被其它线程读、写,甚至完全清除。由一个线程打开的文件可以供其它线程读、写。
(5)系统开销
在创建或撤销进程时,系统都要为之分配和回收进程控制块、分配或回收其他资源,如内存空间和I/O设备等。OS为此所付出的开销,明显大于线程创建或撤销时所付出的开销。类似地,在进程切换时,涉及到进程上下文的切换,而现成的切换代价也远低于进程的。
(6)多处理机系统
在多处理机系统中,对于传统的进程,即单线程进程,不管有多处理机,该进程只能运行在一个处理机上。单对于多线程进程,就可以将一个进程中的多个线程分配到多个处理机上,是它们并行执行,这无疑将加速进程的完成。因此,现代多处理机OS都无一例外地引入了多线程。