字符编码解码

前言
编解码问题常常困扰，实际上理解的关键就是明白2点：
1.电脑只知道二进制不识别中英文等
2.最初将我们的语言转变为电脑识别的二进制办法是ASCII码，它是为英语设计的，无法做到适配英语外的语言，所以出现了各种编解码机制
从一张图开始编解码讲解：

字符.png

Unicode：Unicode（统一码、万国码、单一码）是计算机科学领域里的一项业界标准，包括字符集、编码方案等。Unicode 是为了解决传统的字符编码方案的局限而产生的，它为每种语言中的每个字符设定了统一并且唯一的二进制编码，以满足跨语言、跨平台进行文本转换、处理的要求。1990年开始研发，1994年正式公布。
因为计算机只能处理数字，如果要处理文本，就必须先把文本转换为数字才能处理。最早的计算机在设计时采用8个比特（bit）作为一个字节（byte），所以，一个字节能表示的最大的整数就是255（二进制11111111=十进制255），0 - 255被用来表示大小写英文字母、数字和一些符号，这个编码表被称为ASCII编码，比如大写字母A的编码是65，小写字母z的编码是122。
如果要表示中文，显然一个字节是不够的，至少需要两个字节，而且还不能和ASCII编码冲突，所以，中国制定了GB2312编码，用来把中文编进去。
类似的，日文和韩文等其他语言也有这个问题。为了统一所有文字的编码，Unicode应运而生。Unicode把所有语言都统一到一套编码里，这样就不会再有乱码问题了。
Unicode通常用两个字节表示一个字符，原有的英文编码从单字节变成双字节，只需要把高字节全部填为0就可以。
需要注意的是，Unicode 只是一个符号集，它只规定了符号的二进制代码，却没有规定这个二进制代码应该如何存储。

比如，汉字严的 Unicode 是十六进制数4E25，转换成二进制数足足有15位（100111000100101），也就是说，这个符号的表示至少需要2个字节。表示其他更大的符号，可能需要3个字节或者4个字节，甚至更多。

这里就有两个严重的问题，第一个问题是，如何才能区别 Unicode 和 ASCII ？计算机怎么知道三个字节表示一个符号，而不是分别表示三个符号呢？第二个问题是，我们已经知道，英文字母只用一个字节表示就够了，如果 Unicode 统一规定，每个符号用三个或四个字节表示，那么每个英文字母前都必然有二到三个字节是0，这对于存储来说是极大的浪费，文本文件的大小会因此大出二三倍，这是无法接受的

它们造成的结果是：1）出现了 Unicode 的多种存储方式，也就是说有许多种不同的二进制格式，可以用来表示 Unicode。2）Unicode 在很长一段时间内无法推广，直到互联网的出现。

GBK: 汉字国标扩展码,基本上采用了原来GB2312-80所有的汉字及码位，并涵盖了原Unicode中所有的汉字20902，总共收录了883个符号， 21003个汉字及提供了1894个造字码位。 Microsoft简体版中文Windows 95就是以GBK为内码，又由于GBK同时也涵盖了Unicode所有CJK汉字，所以也可以和Unicode做一一对应。

GB码，全称是GB2312-80《信息交换用汉字编码字符集基本集》，1980年发布，是中文信息处理的国家标准，在大陆及海外使用简体中文的地区（如新加坡等）是强制使用的唯一中文编码。P-Windows3.2和苹果OS就是以GB2312为基本汉字编码， Windows 95/98则以GBK为基本汉字编码、但兼容支持GB2312。GB码共收录6763个简体汉字、682个符号，其中汉字部分：一级字3755，以拼音排序，二级字3008，以偏旁排序。该标准的制定和应用为规范、推动中文信息化进程起了很大作用。

GBK编码是中国大陆制订的、等同于UCS的新的中文编码扩展国家标准。GBK工作小组于1995年10月，同年12月完成GBK规范。该编码标准兼容GB2312，共收录汉字21003个、符号883个，并提供1894个造字码位，简、繁体字融于一库。

Utf-8:
如果UNICODE字符由2个字节表示，则编码成UTF-8很可能需要3个字节。而如果UNICODE字符由4个字节表示，则编码成UTF-8可能需要6个字节。用4个或6个字节去编码一个UNICODE字符可能太多了，但很少会遇到那样的UNICODE字符。

UTF-8编码规则：如果只有一个字节则其最高二进制位为0，这使得utf-8可以与ASCII兼容，是其巨大的优势；如果是多字节，其第一个字节从最高位开始，连续的二进制位值为1的个数决定了其编码的字节数，其余各字节均以10开头。UTF-8转换表表示如下：

Unicode/UCS-4	bit数	UTF-8	byte数	备注
0000 ~007F	0~7	0XXXXXXX	1	NA
0080 ~07FF	8~11	110XXXXX 10XXXXXX	2	NA
0800 ~FFFF	12~16	1110XXXX 10XXXXXX 10XXXXXX	3	基本定义范围：0~FFFF
10000~1FFFFF	17~21	11110XXX 10XXXXXX 10XXXXXX 10XXXXXX	4	Unicode6.1定义范围：0~10 FFFF
200000 ~3FF FFFF	22~26	111110XX 10XXXXXX 10XX XXXX 10XXXXXX 10XXXXXX	5	说明：此非unicode编码范围，属于UCS-4 编码早期的规范UTF-8可以到达6字节序列，可以覆盖到31位元（通用字符集原来的极限）。
4000000~7FFFFFFF	27~31	1111110X 10XXXXXX 10XXXXXX 10XXXXXX 10XXXXXX 10XXXXXX	6	尽管如此，2003年11月UTF-8 被 RFC 3629 重新规范，只能使用原来Unicode定义的区域， U+0000到U+10FFFF。根据规范，这些字节值将无法出现在合法 UTF-8序列中

实际表示ASCII字符的UNICODE字符，将会编码成1个字节，并且UTF-8表示与ASCII字符表示是一样的。所有其他的UNICODE字符转化成UTF-8将需要至少2个字节。每个字节由一个换码序列开始。第一个字节由唯一的换码序列，由n位连续的1加一位0组成, 首字节连续的1的个数表示字符编码所需的字节数。
Unicode转换为UTF-8时，可以将Unicode二进制从低位往高位取出二进制数字，每次取6位，如上述的二进制就可以分别取出为如下示例所示的格式，前面按格式填补，不足8位用0填补。
注：Unicode转换为UTF-8需要的字节数可以根据这个规则计算：如果Unicode小于0X80（Ascii字符），则转换后为1个字节。否则转换后的字节数为Unicode二进制位数减1再除以5。

示例

UNICODE uCA(1100 1010) 编码成UTF-8将需要2个字节：
uCA -> C3 8A，过程如下：
uCA(1100 1010)处于0080 ~07FF之间，从上文中的转换表可知对其编码需要2bytes，即两个字节，其对应 UTF-8格式为： 110X XXXX10XX XXXX。从此格式中可以看到，对其编码还需要11位，而uCA(1100 1010)仅有8位，这时需要在其二进制数前补0凑成11位: 000 1100 1010, 依次填入110X XXXX 10XX XXXX的空位中，即得 1100 0011 1000 1010（C38A）。
同理，UNICODE uF03F (1111 0000 0011 1111) 编码成UTF-8将需要3个字节:
u F03F -> EF 80 BF，对应格式为：1110XXXX10XX XXXX10XX XXXX，编码还需要16位，将1111 0000 0011 1111(F03F)依次填入，可得 1110 1111 1000 0000 1011 1111（EF 80 BF）。

Unicode 16进制	Unicode 2进制	bit数	UTF-8 2进制	UTF-8 16进制
CA	11001010	8	1100001110001010	C3 8A
F03F	1111000000111111	16	111011111000 000010111111	EF 80 BF

python代码示例

# coding=utf-8
def code_transfer(_str, transfer_mode, encoding=True):
    if encoding:

        new_str = _str.encode(transfer_mode)
        print "Encoding %(_str)s to %(str)s by %(transfer_mode)s" % {"_str": repr(_str), "str": repr(new_str), "transfer_mode": transfer_mode}

    else:

        new_str = _str.decode(transfer_mode)
        print "Decoding %(_str)s to %(str)s by %(transfer_mode)s" % {"_str": repr(_str), "str": repr(new_str), "transfer_mode": transfer_mode}


# encode
code_transfer(u'\u4e2d\u56fd', "utf-8", encoding=True)
code_transfer(u'\u4e2d\u56fd', "gb2312", encoding=True)
code_transfer(u'\u4e2d\u56fd', "gbk", encoding=True)
code_transfer(u'俄罗斯', "gbk", encoding=True)

# decode
code_transfer('俄罗斯', "utf-8", encoding=False)
code_transfer('\xd6\xd0\xb9\xfa', "gb2312", encoding=False)
code_transfer('\xd6\xd0\xb9\xfa', "gbk", encoding=False)

#
code_transfer('ssss', "utf-8", encoding=False)
code_transfer('ssss', "gbk", encoding=True)

结果示例(IDE默认UTF-8)

Encoding u'\u4e2d\u56fd' to '\xe4\xb8\xad\xe5\x9b\xbd' by utf-8
Encoding u'\u4e2d\u56fd' to '\xd6\xd0\xb9\xfa' by gb2312
Encoding u'\u4e2d\u56fd' to '\xd6\xd0\xb9\xfa' by gbk
Encoding u'\u4fc4\u7f57\u65af' to '\xb6\xed\xc2\xde\xcb\xb9' by gbk
Decoding '\xe4\xbf\x84\xe7\xbd\x97\xe6\x96\xaf' to u'\u4fc4\u7f57\u65af' by utf-8
Decoding '\xd6\xd0\xb9\xfa' to u'\u4e2d\u56fd' by gb2312
Decoding '\xd6\xd0\xb9\xfa' to u'\u4e2d\u56fd' by gbk
Decoding 'ssss' to u'ssss' by utf-8
Encoding 'ssss' to 'ssss' by gbk

总结

1.ASCII编码只能支持英文和其他一些字符无法支持中文及其它语言，unicode为此而生
2.unicode只是符合和字符之间转换的标准，并没有规定存储方式，并不是一种直接将字符和二进制之间进行编码的方式，编码方式主要是以utf-8为主的一系列编码方式，utf-8是解决了unicode的两个缺点（英文字母的多字节、计算机区别不了unicode和ASCII码）
（ps：解决的版本通过变长字节和与ASCII码一致的1字节内与ASCII码统一）
3.字节显示成中文或其他语言是由字符集来完成，代码里面的注释、字符串若是写成中文，IDE会将其翻译成unicode编码，而显示给人看的时候会成为规定编码格式字符。