笔记 | 计算机系统基础：01-眼前无码，心中有码

零. 课程要点：

进制转换
原码，反码，补码，移码
数据的编码表示

为什么要学数据的编码表示？知道一个数在计算机中怎样表示有什么意义？
个人认为意义就在于只有弄清楚了每一种类型的数据在计算机中怎么表示，才能注意到一些操作过程中容易疏忽和犯错的地方，减少出错的概率，提高代码的质量。就像如果有人告诉你(int)(32.3 x 100) = 3229，你肯定会一时摸不着头脑。而其实许多这些问题，很大程度上来源于计算机只有0和1，没有小数点，且长度有限。学了本课程，才能在面对各种数据时，透过现象看本质，清楚知道它在计算机中的真正表示，即所谓“眼前无码，心中有码”。

一. 进制转换

十进制，二进制，八进制，十六进制，或者统称R进制之间的相互转换，不展开。

二. 原/反/补/移码

原码：正数的符号位为0；负数的符号位为1。
123 = [0111 1011B](原)，-123 = [1111 1011](原)
反码：正数的反码是其本身；负数的反码是原码符号位不变，其余按位取反。
123 = [0111 1011B](反)，-123 = [1000 0100](反)
补码：正数的补码是其本身；负数的补码是原码符号位不变，其余按位取反，再加1，亦即反码加1。
123 = [0111 1011B](补)，-123 = [1000 0101](补)

正数的原码，反码，补码都相同。负数的补码的计算方法除了用负数的原码符号位不变，其余按位取反，再加1，或者负数的反码加1，还有一种简便的方法是用对应正数的补码（就是原码），从右向左遇到第一个1的前面各位取反。

移码：不论正负，原码加上一个偏置常数，位数为n时，通常取2^n-1或者2^n-1-1 (IEEE 754)。
前一种的话，只需要将补码的符号位按位取反即可。
123 = [1111 1011B](移)，-123 = [0000 0101](移)
后一种的话，只需要将补码的符号位按位取反，并减1。
123 = [1111 1010B](移)，-123 = [0000 0100](移)

& 反过来从原/反/补/移码求真值应该怎么求？

原码：正数直接转换；负数转换数值部分，添上负号。
反码：正数直接转换；负数按位取反，转换数值部分，添上负号。
补码：正数直接转换；负数减1，数值部分按位取反，转换，添上负号，或者从右向左，第一个1之前的各位取反，变成正数补码（就是原码），再转换成真值
移码：不论正负，减去偏置常数，再按原码转换成真值。

& 怎么进一步理解补码？

其它三个码都比较简单。补码来源于“互补”，或者“模运算”，以时钟为例（模12系统），当前时钟指向10点，要拨向6点，有两种方式，顺拨8格（10+8 = 8 ≡ 6），倒拨4格（10-4 = 6），两种结果相同（或者可以看成进位被舍弃）。即-4 ≡ 8 = 12 - |-4| (mod 12)，那么我们可以得到：

结论1. 一个负数的补码等于模减该负数的绝对值。例：-4 ≡ 8 = [-4]_补 = 12 - |-4|
结论2. A数减去B数，可以用A数加上B数的负数的补码来代替。例： 10 - 4 = 6 ≡ 18 = 10 + 8 = 10 + [-4]_补

因此在计算机系统中，如果整数用补码表示，那么
[A+B]_补 = [A]_补 + [B]_补
[A-B]_补 = [A]_补 + [-B]_补 = [A]_补 + $\overline{[B]_补}$ + 1
这样就把减法运算转换成了加法运算，就不用特地设计减法器。

注：第二个公式第2个等号可能不太直观，特地说明下：[-B]的补码 = [-B]的原码符号位不变，数值位按位取反，再加1 = [B]的原码符号位取反，数值位按位取反，再加1 = [B]的补码逐位按位取反，再加1。

& 为什么要搞出那么多种码？只用一个原码不行吗？

我们想想如果计算机的整数都用原码表示，会有什么不方便？

0的表示不统一，0000 0000和1000 0000都可以表示0，那么编程时用哪个？
加、减方式不统一（在数字逻辑电路基础那可以看到加/减运算器的设计）。
需要额外对符号位进行辨别处理，基础电路设计变得十分复杂。
当a<b时，实现a-b比较困难。

上面的结论不太直观，举个例子好了，如果计算机中数值用原码表示，并且只保留加法器，那么：
123 - 123 = 123 + (-123) = [0111 1011B](原) + [1111 1011](原) = [0111 0110](原) = 118
可以看到这个结果显然很荒谬，原因就在于符号位参与了运算，没有额外辨别处理。

那么如果用反码呢？
123 - 123 = 123 + (-123) = [0111 1011B](反) + [1000 0100](反) = [1111 1111](反) = [1000 0000](原) = -0
虽然数值部分是正确的，但是给0带上了符号，并且有两种方式表示0，因此也不太理想。

这些问题都可以用补码来解决：
123 - 123 = 123 + (-123) = [0111 1011B](补) + [1000 0101](补) = [0000 0000](补) = [0000 0000](原) = 0
在补码中，0的表示方式唯一，加/减运算被统一了起来，且比原码多表示一个最小负数。所以，补码的引入主要是为了解决负数和减法的问题。

那么移码的引入又是为了什么呢？移码是给原码加上一个偏置常数，使得所有数映射到正数轴，均不为负。这样主要是为了浮点数加减运算时的对阶方便，简化比较过程。例如：

要比较-1和3的大小，如果用补码表示，就是判断111<011?，那么比较的时候还得考虑这个符号位。（本来对于浮点数来说，尾数就已经有个符号需要处理，再来一个更加麻烦）所以干脆都移成正数，判断011<111?。这样就很直观，电路设计也更简单。

三. 数据的编码表示

计算机中需要表示那些数值？实数，包括整数和带小数的实数。

整数可以由上面的各种码表示，那么带小数的实数呢？计算机中没有小数点！于是要么约定好在一个固定位置，如-1.01101 = -1.40625；要么可浮动，根据具体数值来算，如-1.01101 = (-1)¹ x 101101 x 2^-5 = (-1)^S x M x 2^E = -1.40625，即可用一个定点整数（阶码S）和一个定点小数（尾数M）来表示。

注：其实除了计算机没有小数点的问题，还隐藏着另外一个问题，很多小数其实没有办法用有限长的二进制小数表示，如。这点后面再展开。

那么具体用什么码表示整数，浮点数偏置常数取多少，尾数前面是否默认有隐藏的1？在具体编程语言中，对数值的表示方法有自己的一套规则，在C语言中：

& 整数的表示方法

无符号整数：没有符号位，直接转换成真值，8位无符号数可表示0~255；
带符号整数：用补码表示，8位无符号数可表示-127~127；

就是因为C语言中对无符号整数和带符号整数的表示方式不一样，所以造成在具体编程过程中可能会有许多坑！
例如，1001 1010表示多少？那么你必须先告诉我是无符号还是带符号整数！
又例如，总会遇到无符号数和带符号数的比较和加减吧，那么按那种形式比较？（有无符号数按无符号数比较！坑王），如：-1和0U比较，应该是0大吧，但是0是无符号数，所以计算机也把-1看成无符号数，所以11...1B > 00...0B，即-1>0U！！！
还例如，编译器还要来掺一脚，C90中2³¹ ~2³² -1是无符号数，但在C99中是long long型，是带符号型。所以在不同编译器上，比较-2147483648和2147483647时，结果还不一样！在C90中，按无符号比较，10...0B > 01...1B，在C99中，按带符号比较，10...0B < 01...1B。
其实解决这类问题的方法也很简单，就是心中要清楚判别出背后到底是按那种类型进行运算。

& 浮点数的表示方法

IEEE 754 标准（以单精度为例）：

1 bits	8bits	23bits
Sign（符号位）	Exponent （阶码）	Significand（尾数）

规格化数：(-1)^Sign ·1.Significand x 2^Exponent-127
阶码Exponent范围为0000 0001(-126=1-127) ~ 1111 1110(127=254-127)，全0和全1另有它用。
尾数最高位总是1，隐含表示。
例：1|011 1110 1|110 0000 0000 0000 0000 0000 = (-1)¹ ·1.11 x 2^125-127 = -1.75 x 2^-2 = -0.4375

关于浮点数的几个问题：

可表示的最大正数和最小正数是多少？（负数同理，关于原点对称）
最大正数：1.11...1 x 2^254-127 = 0.111...1 x 2^254-127+1 = (1 - 2^-24) x 2¹²⁸
最小正数：1.00...0 x 2^1-127 = 0.1 x 2^1-127+1 = 2^-1 x 2^-125 = 2^-126
a. 超过最大正数的叫（正/负）上溢，小于最小正数的叫（正/负）下溢，这些数无法用32位浮点数表示。
b. 浮点数的范围比定点数大，但数的个数没变多，所以可表示数之间更稀疏，且不均匀，当中包含着无法表示的数，只能近似。例如浮点数0x4275AE14表示61.41999816894531，0x4275AE15表示61.42000198364258，那么二者之间的小数，如61.42就不能精确表示，只能近似。
上面提到阶码全0和全1的情况，用来做什么？
阶码全0，尾数全0：表示0
阶码全0，尾数非0：表示非规格数（0.xx...x X 2^-126落在下溢区间）
阶码全1，尾数全0：表示+/- ∞（浮点数除0为+/- ∞，而不是溢出异常，整数除0为异常）
阶码全1，尾数非0：表示非数，NaN，可以帮助调试程序（0/0，(+ ∞) + (- ∞)，∞/∞等）

另：双精度浮点数阶码有11位，尾数有52位，规格化数为：(-1)^Sign ·1.Significand x 2^{Exponent-1024}。