书籍:《深入理解计算机系统(原书第三版》
本次主要记录一些《深入理解计算机系统(原书第三版》第一章的内容,让自身提高对计算机的基础知识理解。(基本都是从书上简抄)
计算机系统是由硬件系统与软件系统组成的,它们的共同工作来运行应用程序。所有计算机系统都有相似的硬件和软件组成,它们又执行着相似的功能。
第一章主要介绍来底层计算机的概念与整个计算机一个组成。
1. 1 信息=位+上下文
位(又称比特):一个由值为0与1组成,这也是源程序的构成。
字节:8个位被组成一组,每个字节表示程序中某些文本字符。
例如:hellc.c 程序的ASCII码。
hello.c程序是以字节序列的方式存储存在文件中的。每个字节都有一个整数值,对应于某些字符。像hello.c这样只由ASCII字符构成的文件称为 文本文件。所有其他文件都称为 二进制文件。
注意:每个文本行都是以一个看不见的换行符‘\n’来结束,它对应的整数值为10。
系统中所有的信息——包含磁盘文件、内存中的程序、内存存放的用户数据以及网络上传送的数据,都是由一串比特表示的。
区分不同数据对象的唯一方式是读到这些数据对象时的上下文(当时运行时的环境)。比如,在不同的上下文中,一个同样的字节序列可能表示一个整数、浮点数、字符串或者机器指令。
1.2 编译系统
例子:在系统上运行hello.c程序,每条C语句都必须被其他程序转化为一系列的低级 机器语言指令。然后这些指令按照一种称为 “可行性目标程序” 的格式打包好,并以二进制磁盘文件的形式存放起来。目标程序也称为 可执行目标文件。
GCC编译器 驱动程序读取源程序文件hello.c,并把它翻译成一个可执行目标文件hello。
编译系统可分为四个阶段:预处理器、编译器、汇编器和衔接器。
预处理阶段: 预处理器(cpp)根据以字符#开头的命令,修改原始的C程序。得到另一个hello.i作为文件扩展名
编译阶段: 编译器(ccl)将文本文件hello.i翻译成文本文件 hello.s,它包含一个汇编语言程序。汇编语言作用:为不同高级语言的不同编译器提供通用的输出语言。
汇编阶段:汇编器(as)将hello.s翻译成机器语言指令,把这些指令打包成一种叫做"可重定位目标程序"的格式,并将结果保存在目标文件hello.o中(二进制文件)
衔接阶段:将printf函数预编译好,合并到hello文件。加载到内存中,由系统执行。
1.3 处理器读并解释存储在内存中的指令
1. 系统的硬件组成
总线:贯穿整个系统的是一组电子管道,称为总线,它携带信息字节并负责在各个部件间传递。(大多数都是4个字节-32位,或者8个字节-64位)
I/O设备:I/O(输入/输出)设备是系统与外部世界的联系通道。例如:鼠标、键盘、显示器、磁盘。
每个I/O设备都通过一个控制器或适配器与I/O总线相连。
控制器与适配器之间的区别在于它们的封装方式。控制器是I/O设备本身或者主板上的芯片组。而适配器是一块插在主板插槽上的卡。都是用来I/O总线与I/O设备之间传递信息。
主存:是一个临时存储设备,在处理器执行程序时,用来存放程序与程序处理的数据。从物理上来说,主存是由一组动态随机存储器(DRAM)芯片组成。从逻辑上,存储器是一个线性的字节数组,每个字节都有其唯一的地址(数组索引),这些地址都是从零开始。
处理器:中央处理器单元(CPU)简称处理器,是解释(或执行)存储在主存中指令的引擎。处理器的核心是一个大小位一个字的存储设备(或寄存器),称为程序计数器(PC)。在任何时刻,PC都指向主存中某条器语言指令(即含有改条指令的地址)。
2. 运行hello程序
1.4 高速缓存
原因:系统花费来大量的时间把信息从一个地方挪到另一个地方。
例子:hello程序的机器指令的流程。
磁盘 —复制—》 主存—复制—》 处理器—复制—》 显示器。
复制就是开销,减慢了程序“真正”的工作。
根据机器原理,较大的存储设备要比较小的存储设备运行的面。类似一个典型的寄存器文件只存储几百字节的信息,而主存里可放几十亿字节。数据读取差距快100倍。
为此,设计了更小更快的存储设备,称为高速缓存存储器(cache memeory)作为暂时的集结区域,存放处理器近期可能会需要的信息。
注:能够利用高数缓存将程序的性能提高一个数量级。
1.5 存储设备的层次结构
在处理器和一个较大较慢的设备(例如主存)之间插入一个更小更快的存储设备(例如高速缓存)。实际上,每个计算机系统中的存储设备都被组成一个 存储器层次结构。
存储器层次结构的主要思想是:上一层的存储器作为低一层存储器的高速缓存。可以利用对整个存储器层次的理解来提供程序性能。
1.6 操作系统管理硬件
操作系统:看成是应用程序和硬件之间插入的一层软件。所有应用程序对硬件的操作尝试都必须通过操作系统。
操作系统有两个基本功能:
(1). 防止硬件被失控的应用程序滥用
(2). 向应用程序提供简单一致的机制来控制复杂而有通常大不相同的低级硬件设备。
操作系统通过进程、虚拟内存和文件来实现这两个功能。
文件:对I/O设备的抽象表示。 虚拟内存:对主存和磁盘I/O设备的抽象表示。 进程:对处理器、主存和I/O设备的抽象表示。
1. 进程
进程:操作系统对一个正在运行的程序的一种抽象。在一个系统上可以同时运行多个进程,而每个进程都好像在独占地使用硬件。
并发运行:一个进程的指令和另一个进程的指令是交错执行的。
上下文:操作系统保持跟踪进程运行所需的所有状态信息。包含许多信息,比如PC和寄存器文件的当前值,以及主存的内容。
从一个进程到另一个进程的转换是由操作系统内核(kernel)管理的。
内核是操作系统代码常驻主存的部分。当应用程序需要操作系统的某些操作时,比如读写文件,它就执行一条特殊的系统调用(system call)指令,将控制权传递给内核。然后内核执行被请求的操作并返回应用程序。注意,内核不是一个独立的进程,相反,它是系统管理全部进程所用代码和数据结构的集合。
2. 线程
一个进程实际上可以由多个称为线程的执行单元组成,每个线程都运行在进程的上下文中,并共享同样的代码和全局数据。
3. 虚拟内存
虚拟内存是一个抽象概念,它为每个进程提供了一个假象,即每个进程都在独占地使用主存。每个进程看到的内存都是一致的,称为虚拟地址空间。
Linux中,地址空间最上面的区域是保留给操作系统的代码和数据的,这对所有的进程都一样。地址空间的底部区域存放用户进程定义的代码和数据。注意:图中地址是从下往上增大的。
从最低的地址开始,逐步向上介绍
程序代码和数据:对所有的来说,代码是从同一个固定地址开始,紧接着的是和C全局变量相对的数据位置。
堆:代码和数据区后紧随着的是运行时对。堆可以在运行时动态地扩展和收缩。
共享库:地址空间的中间部分是一块用来存储共享代码和数据的区域。
栈:位于用户虚拟地址空间顶部的是用户栈,编译器用它来实现函数调用。和堆一样,用户栈在程序执行期间可以动态地扩展和收缩。
内核虚拟内存:地址空间顶部的区域是为内核保留。不允许应用程序读写这个区域的内容或者直接调用内核代码定义的函数。相反,它们必须调用内核来执行这些操作。
4. 文件
文件就是字节序列。每个I/O设备,包括磁盘、键盘、显示器、设置网络,都可以堪称文件。
1.7 系统之间利用网络通信
从一个系统来看,网络可视为一个I/O设备。当系统从主存复制一串字节到网络适配器时,数据流经过网络到底另一台机器。
1.8 重要主题
1. Amdahl定律
定律主要思想:当我们对系统的某个部分加速时,其对系统整体性能的影响取决与该部分的重要性和加速程度。
2. 并发和并行
术语并发(concurrency)是一个通用的概念,指一个同时具有多个活动的系统。
术语并行(parallelism)指的是用并发来使一个系统运行的更快。并行可以在计算系统的多个抽象层次上运行。
线程级并发
构建在进程抽象之上,能够设置出同时有多个程序执行的系统,这就导致来并发。
多核处理器:将多个CPU(核)集成到一个集成电路芯片上。下图是一个典型多核处理器的组织架构,其中微处理器芯片有4个CPU核,每个核都有自己的L1核L2高速缓存,其中的L1高速缓存分为两个部分, 一个保存最近取到的指令,另一个存放数据。
超线程(多线程):是一项允许一个CPU执行多个控制流的技术。它涉及CPU某些硬件有多个备份,比如程序计数器和寄存器文件,而其他的硬件部分只有一份。例如:Intel Core i7处理器可以让每个核执行两个线程,所有一个4个核的系统实际上可以并行地执行8个线程。
多处理器的使用可以从两方面提供系统性能:减少了在执行多个任务时模拟并发的需要。可以使应用程序地高效执行。
指令级并行
在较低的抽象层次上,现代处理器可以同时执行多条指令的属性称为 指令级并行。
如果处理器可以达到比一个周期一条指令更快的执行效率,就称为超标量。
3. 计算机系统中的抽象
1) 文件是对I/O设备的抽象;
2)虚拟内存是对主存和磁盘的抽象;
3)进程是处理器、主存和I/O设备的抽象;
4)虚拟机是对整个计算机的抽象,包括操作系统、处理器和程序。
总结:
首先有一张对于计算机系统的组成的图,基于上面提高的图,分别对CPU、I/O、主存、磁盘、网络有一个整体的概念。即可,在对每个单元进行细分。
CPU:有程序计数器、文件寄存器、ALU等,根据高效缓存区分,有寄存器、L1、L2、L3的暖存结构。并发与并行的理解。
I/O:文件是对I/O的抽象,I/O是适配器、控制器、网络适配器等。实际上传输的是二进制指令和数据。
主存:用于缓存数据
磁盘:用于存储数据
网络:就是一个I/O设备