字符编码解码

前言
编解码问题常常困扰,实际上理解的关键就是明白2点:
1.电脑只知道二进制不识别中英文等
2.最初将我们的语言转变为电脑识别的二进制办法是ASCII码,它是为英语设计的,无法做到适配英语外的语言,所以出现了各种编解码机制
从一张图开始编解码讲解:

字符.png

Unicode:Unicode(统一码、万国码、单一码)是计算机科学领域里的一项业界标准,包括字符集、编码方案等。Unicode 是为了解决传统的字符编码方案的局限而产生的,它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。1990年开始研发,1994年正式公布。
因为计算机只能处理数字,如果要处理文本,就必须先把文本转换为数字才能处理。最早的计算机在设计时采用8个比特(bit)作为一个字节(byte),所以,一个字节能表示的最大的整数就是255(二进制11111111=十进制255),0 - 255被用来表示大小写英文字母、数字和一些符号,这个编码表被称为ASCII编码,比如大写字母A的编码是65,小写字母z的编码是122。
如果要表示中文,显然一个字节是不够的,至少需要两个字节,而且还不能和ASCII编码冲突,所以,中国制定了GB2312编码,用来把中文编进去。
类似的,日文和韩文等其他语言也有这个问题。为了统一所有文字的编码,Unicode应运而生。Unicode把所有语言都统一到一套编码里,这样就不会再有乱码问题了。
Unicode通常用两个字节表示一个字符,原有的英文编码从单字节变成双字节,只需要把高字节全部填为0就可以。
需要注意的是,Unicode 只是一个符号集,它只规定了符号的二进制代码,却没有规定这个二进制代码应该如何存储。

比如,汉字严的 Unicode 是十六进制数4E25,转换成二进制数足足有15位(100111000100101),也就是说,这个符号的表示至少需要2个字节。表示其他更大的符号,可能需要3个字节或者4个字节,甚至更多。

这里就有两个严重的问题,第一个问题是,如何才能区别 Unicode 和 ASCII ?计算机怎么知道三个字节表示一个符号,而不是分别表示三个符号呢?第二个问题是,我们已经知道,英文字母只用一个字节表示就够了,如果 Unicode 统一规定,每个符号用三个或四个字节表示,那么每个英文字母前都必然有二到三个字节是0,这对于存储来说是极大的浪费,文本文件的大小会因此大出二三倍,这是无法接受的

它们造成的结果是:1)出现了 Unicode 的多种存储方式,也就是说有许多种不同的二进制格式,可以用来表示 Unicode。2)Unicode 在很长一段时间内无法推广,直到互联网的出现。

GBK: 汉字国标扩展码,基本上采用了原来GB2312-80所有的汉字及码位,并涵盖了原Unicode中所有的汉字20902,总共收录了883个符号, 21003个汉字及提供了1894个造字码位。 Microsoft简体版中文Windows 95就是以GBK为内码,又由于GBK同时也涵盖了Unicode所有CJK汉字,所以也可以和Unicode做一一对应。

GB码,全称是GB2312-80《信息交换用汉字编码字符集 基本集》,1980年发布,是中文信息处理的国家标准,在大陆及海外使用简体中文的地区(如新加坡等)是强制使用的唯一中文编码。P-Windows3.2和苹果OS就是以GB2312为基本汉字编码, Windows 95/98则以GBK为基本汉字编码、但兼容支持GB2312。GB码共收录6763个简体汉字、682个符号,其中汉字部分:一级字3755,以拼音排序,二级字3008,以偏旁排序。该标准的制定和应用为规范、推动中文信息化进程起了很大作用。

GBK编码是中国大陆制订的、等同于UCS的新的中文编码扩展国家标准。GBK工作小组于1995年10月,同年12月完成GBK规范。该编码标准兼容GB2312,共收录汉字21003个、符号883个,并提供1894个造字码位,简、繁体字融于一库。

Utf-8:
如果UNICODE字符由2个字节表示,则编码成UTF-8很可能需要3个字节。而如果UNICODE字符由4个字节表示,则编码成UTF-8可能需要6个字节。用4个或6个字节去编码一个UNICODE字符可能太多了,但很少会遇到那样的UNICODE字符。

UTF-8编码规则:如果只有一个字节则其最高二进制位为0,这使得utf-8可以与ASCII兼容,是其巨大的优势;如果是多字节,其第一个字节从最高位开始,连续的二进制位值为1的个数决定了其编码的字节数,其余各字节均以10开头。UTF-8转换表表示如下:

Unicode/UCS-4 bit数 UTF-8 byte数 备注
0000 ~007F 0~7 0XXXXXXX 1 NA
0080 ~07FF 8~11 110XXXXX
10XXXXXX
2 NA
0800 ~FFFF 12~16 1110XXXX
10XXXXXX
10XXXXXX
3 基本定义范围:0~FFFF
10000~1FFFFF 17~21 11110XXX
10XXXXXX
10XXXXXX
10XXXXXX
4 Unicode6.1定义范围:0~10 FFFF
200000 ~3FF FFFF 22~26 111110XX
10XXXXXX
10XX XXXX
10XXXXXX
10XXXXXX
5 说明:此非unicode编码范围,属于UCS-4 编码早期的规范UTF-8可以到达6字节序列,可以覆盖到31位元(通用字符集原来的极限)。
4000000~7FFFFFFF 27~31 1111110X
10XXXXXX
10XXXXXX
10XXXXXX
10XXXXXX
10XXXXXX
6
尽管如此,2003年11月UTF-8 被 RFC 3629 重新规范,只能使用原来Unicode定义的区域, U+0000到U+10FFFF。
根据规范,这些字节值将无法出现在合法 UTF-8序列中

实际表示ASCII字符的UNICODE字符,将会编码成1个字节,并且UTF-8表示与ASCII字符表示是一样的。所有其他的UNICODE字符转化成UTF-8将需要至少2个字节。每个字节由一个换码序列开始。第一个字节由唯一的换码序列,由n位连续的1加一位0组成, 首字节连续的1的个数表示字符编码所需的字节数。
Unicode转换为UTF-8时,可以将Unicode二进制从低位往高位取出二进制数字,每次取6位,如上述的二进制就可以分别取出为如下示例所示的格式,前面按格式填补,不足8位用0填补。
注:Unicode转换为UTF-8需要的字节数可以根据这个规则计算:如果Unicode小于0X80(Ascii字符),则转换后为1个字节。否则转换后的字节数为Unicode二进制位数减1再除以5。

示例

UNICODE uCA(1100 1010) 编码成UTF-8将需要2个字节:
uCA -> C3 8A, 过程如下:
uCA(1100 1010)处于0080 ~07FF之间,从上文中的转换表可知对其编码需要2bytes,即两个字节,其对 应 UTF-8格式为: 110X XXXX10XX XXXX。从此格式中可以看到,对其编码还需要11位,而uCA(1100 1010)仅有8位,这时需要在其二进制数前补0凑成11位: 000 1100 1010, 依次填入110X XXXX 10XX XXXX的空位中, 即得 1100 0011 1000 1010(C38A)。
同理,UNICODE uF03F (1111 0000 0011 1111) 编码成UTF-8将需要3个字节:
u F03F -> EF 80 BF,对应格式为:1110XXXX10XX XXXX10XX XXXX,编码还需要16位,将1111 0000 0011 1111(F03F)依次填入,可得 1110 1111 1000 0000 1011 1111(EF 80 BF)。

Unicode 16进制 Unicode 2进制 bit数 UTF-8 2进制 UTF-8 16进制
CA 11001010 8 1100001110001010 C3 8A
F03F 1111000000111111 16 111011111000 000010111111 EF 80 BF

python代码示例

# coding=utf-8
def code_transfer(_str, transfer_mode, encoding=True):
    if encoding:

        new_str = _str.encode(transfer_mode)
        print "Encoding %(_str)s to %(str)s by %(transfer_mode)s" % {"_str": repr(_str), "str": repr(new_str), "transfer_mode": transfer_mode}

    else:

        new_str = _str.decode(transfer_mode)
        print "Decoding %(_str)s to %(str)s by %(transfer_mode)s" % {"_str": repr(_str), "str": repr(new_str), "transfer_mode": transfer_mode}


# encode
code_transfer(u'\u4e2d\u56fd', "utf-8", encoding=True)
code_transfer(u'\u4e2d\u56fd', "gb2312", encoding=True)
code_transfer(u'\u4e2d\u56fd', "gbk", encoding=True)
code_transfer(u'俄罗斯', "gbk", encoding=True)

# decode
code_transfer('俄罗斯', "utf-8", encoding=False)
code_transfer('\xd6\xd0\xb9\xfa', "gb2312", encoding=False)
code_transfer('\xd6\xd0\xb9\xfa', "gbk", encoding=False)

#
code_transfer('ssss', "utf-8", encoding=False)
code_transfer('ssss', "gbk", encoding=True)


结果示例(IDE默认UTF-8)

Encoding u'\u4e2d\u56fd' to '\xe4\xb8\xad\xe5\x9b\xbd' by utf-8
Encoding u'\u4e2d\u56fd' to '\xd6\xd0\xb9\xfa' by gb2312
Encoding u'\u4e2d\u56fd' to '\xd6\xd0\xb9\xfa' by gbk
Encoding u'\u4fc4\u7f57\u65af' to '\xb6\xed\xc2\xde\xcb\xb9' by gbk
Decoding '\xe4\xbf\x84\xe7\xbd\x97\xe6\x96\xaf' to u'\u4fc4\u7f57\u65af' by utf-8
Decoding '\xd6\xd0\xb9\xfa' to u'\u4e2d\u56fd' by gb2312
Decoding '\xd6\xd0\xb9\xfa' to u'\u4e2d\u56fd' by gbk
Decoding 'ssss' to u'ssss' by utf-8
Encoding 'ssss' to 'ssss' by gbk

总结

1.ASCII编码只能支持英文和其他一些字符无法支持中文及其它语言,unicode为此而生
2.unicode只是符合和字符之间转换的标准,并没有规定存储方式,并不是一种直接将字符和二进制之间进行编码的方式,编码方式主要是以utf-8为主的一系列编码方式,utf-8是解决了unicode的两个缺点(英文字母的多字节、计算机区别不了unicode和ASCII码)
(ps:解决的版本通过变长字节和与ASCII码一致的1字节内与ASCII码统一)
3.字节显示成中文或其他语言是由字符集来完成,代码里面的注释、字符串若是写成中文,IDE会将其翻译成unicode编码,而显示给人看的时候会成为规定编码格式字符。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 211,376评论 6 491
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,126评论 2 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 156,966评论 0 347
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,432评论 1 283
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,519评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,792评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,933评论 3 406
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,701评论 0 266
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,143评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,488评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,626评论 1 340
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,292评论 4 329
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,896评论 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,742评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,977评论 1 265
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,324评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,494评论 2 348