通过研究"hello world"程序的生命周期,介绍计算机系统的主要概念和主题
计算机的组成
计算机是由硬件和软件组成的,这两个部分共同协作完成程序的运行。
1.1信息就是位+上下文
一个由0和1组成的序列就是位
8个位组成一组,称为字节
区分不同数据对象的唯一方法就是上下文
1.2程序被其他程序翻译成不同的格式
以下面这段hello.c代码为例:
#include <stdio.h>
int main(){
printf("Hello, World!\n");
return 0;
}
预处理阶段:预处理器(cpp)根据#开头的头文件修改C程序,一般以.i结尾
编译阶段:编译器(ccl)将hello.i编译成hello.s,包含一个汇编语言程序。该程序包含main函数
汇编阶段:汇编器(as)讲hello.s翻译成机器语言指令,将指令打包在一个可重定位目标程序的格式,并将结果保存为hello.o
链接阶段:hello调用了printf函数,这个函数存在printf.o中,连接器(ld)负责处理合并。结果就是一个可执行文件
1.4处理器读并解释内存中的指令
总线:贯穿整个系统的是一组电子管道(其实就是传输数据的线路),也就是总线。总线传送的是字。
位表示的是二进制位,一般称为bit
字节byte,是计算机中数据处理的基本单位。计算机中以字节为单位存储和解释信息,规定一个字节由八个二进制位构成,即1个字节等于8个比特(1Byte=8bit)
字word,计算机进行数据处理时,一次存取、加工和传送的数据长度
I/O设备:I/O设备是系统与外部联系的通道。每一个I/O设备都通过一个控制器
或者适配器
与I/O总线相连。
控制器是I/O设备本身或者系统主板上的芯片组,而适配器则是一块插在主板插槽上的卡
主存:它是计算机中的一个临时存储设备,在处理器执行程序的时候,用来存放程序和程序处理的数据。物理上来说,它是一组动态随即存取存储器(DRAM)
芯片组成,逻辑上来说,它是一组连续的字节数组,每一个字节都有唯一的地址。
处理器:全称中央处理单元,是解释(或执行)存储在主存中指令的引擎。处理器的核心是一个大小为一个字的存储设备(或寄存器),称为程序计数器(PC),在任何时刻,PC都指向主存中某条机器语言指令。处理器从程序计数器指向的内存读取指令,解释指令中的位,执行该指令的操作,然后更新PC,指向下一条指令(这条指令不一定与上一条相邻)。
寄存器文件是一个小的存储设备,由单个字长的寄存器构成,每个寄存器有唯一的名字(这个在后面有详细介绍)
hello world的执行
简单描述硬件组成和操作
一、从键盘上读取hello命令
二、从磁盘加载可执行文件到主存
三、将输出字符串从存储器写到显示器
1.5~1.6高速缓存及存储设备层次结构
高速缓存被置放于处理器当中,与处理器中的寄存器文件直接进行数据交换,这样大大减少了数据传输的时间成本。适当的利用高速缓存去存放一些程序运行过程中可能会经常使用的数据,可以将程序的运行速度提高数倍甚至数个数量级。
设备存储行程层次结构有效的利用及提高计算机效率。
1.7 操作系统管理硬件
操作系统有两个基本功能:
(1)防止硬件被控制的应用程序滥用;
(2)向应用程序提供简单一直的机制来控制复杂而又通常不同的低级硬件设备。
操作系统通过几个基本的抽象概念来实现:进程、虚拟内存和文件
文件是对I/O设备的抽象,虚拟内存是对主存和I/O设备的抽象,进程是对处理器、主存和I/O设备的抽象。
进程
进程是操作系统对一个正在运行的程序的抽象。
一个进程的指令和另一个进程的指令是交错执行的,他们并发运行
。
操作系统实现这种交错执行的机制称为上下文切换
。
当操作系统决定要吧控制权从当前进程转移到某个新进程时,就会进行上下文切换:保存当前进程的上下文、恢复新进程的上下文,然后将控制权传递给新的进程
从一个进程到另一个进程的转换是操作系统内核管理的。内核是操作系统代码常驻主存的部分。注意:内核不是一个独立的进程。相反,它是操作系统管理全部进程所用代码和数据结构的集合。
线程
一个进程实际上可以由多个线程的执行单元组成,每个线程都运行在进程的上下文中,并共享同样的代码和全局数据。
线程和进程
- 二者均可并发执行.
- 线程是指进程内的一个执行单元,也是进程内的可调度实体。一个程序至少有一个进程,一个进程至少有一个线程,一个线程只属于一个进程.
- 资源分配给进程,同一一进程的所有线程共享该进程的所有资源。
- 处理机分给线程,即真正在处理机上运行的是线程。
- 线程在执行过程中,需要协作同步。
此处详见知乎这个答案 作者:idreamagic
此外还有一个通俗的例子,是一个匿名用户的答案:
比如你去一个食堂吃饭。里面有A,B,C,D等一些窗口可以打饭菜或者米粉麻辣烫什么的。但是每一个窗口又有打这些菜的师傅。那么这些窗口就是进程。那个那些窗口里面打菜的师傅就是线程。这个食堂就是系统了。系统去分配这些进程。
虚拟内存
虚拟内存是一个抽象概念,它为每个进程提供了一个假象,即每个进程都独占地使用主存。每个进程看到的内存都是一致的,称为虚拟地址空间。
- 程序代码和数据:对于所有进程来说,代码是从同一个固定的地址开始,紧接着的是和C全局变量相对应的数据位置。
- 堆:代码和数据区后紧随的是运行时堆
- 共享库:用于存放共享库的代码和数据。
- 栈:编译器用来实现函数的调用。和堆一样,在程序执行期间可以动态的扩展和收缩。
- 内核虚拟内存:地址空间顶部的区域是为内核保留的,不允许应用程序读写这个区域的内容或者直接调用内核代码定义的函数,相反,必须调用内核来执行这些操作。
文件
文件就是字节序列,仅此而已。每个I/O设备,包括磁盘、键盘、鼠标、显示器甚至网络,都可以看成是文件。
1.9 相关概念
Amdahl定律
Amdahl定律描述了改善任何过程的一般原则。
并发和并行
并发是一个通用的概念,指一个同事具有多个活动的系统;
而并行指的是用并发来使一个系统运行得更快。
再来一个通俗的例子:
- 你吃饭吃到一半,电话来了,你一直到吃完了以后才去接,这就说明你不支持并发也不支持并行。
- 你吃饭吃到一半,电话来了,你停了下来接了电话,接完后继续吃饭,这说明你支持并发。
- 你吃饭吃到一半,电话来了,你一边打电话一边吃饭,这说明你支持并行。
并发的关键是你有处理多个任务的能力,不一定要同时。并行的关键是你有同时处理多个任务的能力。所以我认为它们最关键的点就是:是否是『同时』。例子来源见知乎,作者:龚昱阳 Dozer
线程级并发
线程级并发的概念,是指的多个线程在同一时间(并非是绝对同时的)活动。
多处理器的使用可以从两方面提高系统性能。首先,它减少了在执行多个任务是模拟并发的需要。
其次,它可以使应用程序运行更快,这必须要求程序是一多线程方式书写,这些线程可以并行地高效执行
指令级并行
较低的抽象层次上,现代处理器可以同时执行多条指令的属性被称为指令级并行
更好的情况下,现代处理器能够做到执行一条指令的平均时间尚且不到一个周期,这种处理器就称为超标量
处理器。
单指令、多数据并行
在最低层次上,许多现代处理器拥有特殊的硬件,允许一条指令产生多个可以并行执行的操作,这种方式称为单指令、多数据
,即SIMD并行。
抽象的重要性
计算机系统提供了一些抽象。
计算机系统中的一个最大主题就是提供不同层次的抽象表示,来隐藏实际实现的复杂性。
文件是对I/O设备的抽象,虚拟内存是对主存和I/O设备的抽象,进程是对处理器、主存和I/O设备的抽象。虚拟机,提供对整个计算机的抽象,包括操作系统、处理器和程序。