字符集和字符编码以及编码转换

文档是用的幕布编辑的,不是标准markdown,因此只有层次结构,懒得转换了,见谅~
by the way,推荐一下:幕布,极其适合速记、思维导图、读书笔记、会议记录、工作内容梳理等。链接:https://mubu.com

  • 字符、字符集和二进制

    • 计算机只能识别二进制数据,就是01串,每个数字是一个二进制位

    • 字符是便于人理解和识别的符号,比如一个字母,一个逗号,一个数字

    • 字符编码就是指,一个字符应该由几个二进制位表示,比如在ASCII字符集里,大写字母A就是用01000001表示,也就是十进制的32

    • 字符集是在一套编码规则下的字符集合,包含两个部分

      • 规定一个字符由几个二进制位组成,一般是按照字节为单位

      比如上文的大写字母A,在ASCII中规定,一个字符由一个字节(也就是8个二进制位)表示,这是编码规则

      • 指定映射关系,每个字符的对应的字节内容是什么

      比如上文的大写字符A,在ASCII中规定,一个字符由一个字节表示,且01000001映射了字符A,所以根据这套编码和映射规则,大致可以理解为,当计算机读到了01000001时,就把它翻译成A

    • 由于字符集必须以某种编码规则进行映射,所以通常字符编码和字符集形成对应关系

  • 常用字符编码标准/字符集

    • ASCII

      • 描述:英文字符编码,因此其形成的字符集是英文字符集
      • 编码规则:每个字符由一个字节表示
      • 映射关系:ASCII编码表,一共128个字符编码。后续ISO又陆续制定了适应别的国家和的确的字符编码表
    • ANSI

      一些字符编码标准的统称,比如GB2312、BIG5、JIS等,这些都是适用于特定国家和地区的编码标准及相应的字符集,这些都是ANSI标准​

      • ANSI字符集空间比ASCII要大很多,通常一个字符需要多个字节来表示
      • ANSI编码一般会兼容ASCII标准
      • 每种ANSI编码标准值规定自己国家的字符编码规则和映射关系
    • Unicode/UCS和UTF

      由于 ANSI 码的第一个特点:各个国家或地区在编制自己的 ANSI 码时并未考虑到其他国家或地区的 ANSI 码,导致编码空间有重叠,比如:汉字'中'的编码是[0xD6,0xD0],这个编码在其他国家的 ANSI 编码标准中则不一定就是该编码了。于是,同一个二进制数字可以被解释成不同的符号。因此,要想打开一个文本文件,就必须知道它的编码方式,否则用错误的编码方式解读,就会出现乱码。这样一来当在不同ANSI编码标准之间进行信息交换和显示的时候,乱码就不可避免了。

      • Unicode是通用字符编码集,它为美中与原中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。

      • UCS是也是通用字符集,是ISO和Unicode协会统一了两家的标准之后的产物,是所有其他字符集标准的一个超集,也可以理解为Unicode和UCS互相兼容--因为世界上不需要两套统一的字符集。

      • UTF是Unicode的实现方式,称为Unicode转换格式,常见的友UTF-16/UTF-32/UTF-8等。

        Unicode/UCS只是一个字符集,他只规定了符号的二进制代码,却没有规定这个二进制代码如何存储。比如汉字“严”的Unicode码是4E25,转成二进制数足足有15位(100111000100101),也就是说这个符号的表示至少需要2个字节。对于其他的更大的符号,可能需要3个字节或者4个字节,甚至更多。 ​​

        • UTF-8是最广泛使用的UTF方案,使用可变长度字节来存储Unicode字符。

        比如ASCII字母继续使用1字节存储,重音文字、希腊字母或者西里尔字母等使用2个字节来存储,而常用的汉子就需要使用3个字节来存储,辅助平面字符使用4个字节等。​​​

    • UTF-8

      这里将UTF-8单独拎出来讲一下,因为他实在是太广泛了,而且越来也越成为约定俗成的编码方式​

      • UTF-8是Unicode的一种实现方式,因为Unicode已经规定好了字符的映射关系,也就是说已经规定好了字符表,因此UTF-8主要是解决了如何存储的问题。

      • UTF-8以8位单元对Unicode进行编码,附件中图片为转换规则

        image

        例如汉子的“汉”字,Unicode的编码是6C49,6C49在0800-FFFF之间,因此使用3个字节模板来存储。将6C49写成二进制是0100110001001001,用这个比特流一次代替模板中的x,得到11100110 10110001 10001001,即E6 B1 89​

      • 那么当软件打开一个文件的时候如何识别文本的字符集和编码呢——检测文件头标识或者提示用户选择或者根据一定的规则猜测

  • 字符编码转换-java

    这里总结一下java里无处不见却又很难弄清楚的字符编码转换——头疼的乱码问题

    • 首先我们要明白,在java的世界里,所有字符的存储都是Unicode(UTF-16),因此所有的数据到java里,都会被以这种方式编码

      • 例如读入GBK的编码文件,那么java将读入文件的字节流,并且根据GBK编码规则正确识别每个字符,然后转换成Unicode码存储在内存中。
    • 读取文件原则:如果知道文件的编码格式,在读取的时候,手动指定编码格式,否则会读到乱码

    • 输出文件原则:输出文件的时候,指定编码格式,将以指定的格式进行编码输出

    • 编码转换:new String(src.getBytes(target_Encode),targetEncode),getBytes(target_Encode)的含义是按照指定的编码格式获取字节数组,并且按照指定格式编码成字符串

      参考https://blog.csdn.net/h12kjgj/article/details/73496528

      • 例如GBK编码格式的文件fileA,其内容是“汉子”,那么读取的时候,我们应当指定编码格式为GBK,然后才能读到正确的数据。这时候如果我们需要将其编码格式更改为UTF-8,我们可以直接使用new String(line.getBytes("UTF-8"),"UTF-8")来进行,line是正确读取的内容,其结果是编码好的UTF-8格式的数据。如果我们要输出,那么只要在读取和输出的时候,分别制定相应的编码格式即可。
    • by the way,网上随处可见的new String(src.getBytes(srcEncode),targetEncode)是错误的,在tomcat中可以正确做到,那只是个巧合。可以参见getBytes的API说明:以指定的编码格式获取字节数组,你获取了encodeA的字节,然后以encodeB编码方式来编码,肯定得不到正确的结果

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,384评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,845评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,148评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,640评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,731评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,712评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,703评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,473评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,915评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,227评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,384评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,063评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,706评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,302评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,531评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,321评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,248评论 2 352