OC 字符串编码-中英文字符串混合长度

1.各种编码格式 原理以及发展历史

1.1 ASCII码

早起计算机发展初期,肯定是以字母为标准的,没考虑世界上其他语言 如中文,日文韩文等,故此起初设计的字符集合也就比较简单,也就是如今的ASCII码。
ASCII码一共规定了128个字符的编码,比如大写的字母A是65(二进制01000001)。这128个符号(包括32个不能打印出来的控制符号),只占用了一个字节的后面7位,最前面的1位统一规定为0。

1.2. 非ASCII码

英语用128个符号编码就够了,但是用来表示其他语言,128个符号是不够的。比如,在法语中,字母上方有注音符号,它就无法用ASCII码表示。需要扩展编码集合有些就使用ASCII码保留码有些,有些就使用两个字节来表示如国标GB2312就是两个字节表示一个汉字。但是各个地区国家各自为政发展出来了很多不同的非ASCII码体系,如台湾与大陆编码都不一样,这导致沟通成本很大,故此迫切需要一个标准化的符号集合,Unicode孕育而生。

1.3.Unicode

Unicode只是一个符号集合,规定了二进制代码,但是并没规定具体存储方式。
对应具体的汉字有可能其Unicode需要二个字节来保存其转换出来的二进制数,也有可能需要3个字节,4个字节才能够保存,大部分汉字是需要4个字节来表示。
比如,汉字“严”的unicode是十六进制数4E25,转换成二进制数足足有15位(100111000100101),也就是说这个符号的表示至少需要2个字节。表示其他更大的符号,可能需要3个字节或者4个字节,甚至更多。

这里就有两个严重的问题,第一个问题是,如何才能区别unicode和ascii?计算机怎么知道三个字节表示一个符号,而不是分别表示三个符号呢?第二个问题是,我们已经知道,英文字母只用一个字节表示就够了,如果unicode统一规定,每个符号用三个或四个字节表示,那么每个英文字母前都必然有二到三个字节是0,这对于存储来说是极大的浪费,文本文件的大小会因此大出二三倍,这是无法接受的。

它们造成的结果是:1)出现了unicode的多种存储方式,也就是说有许多种不同的二进制格式,可以用来表示unicode。2)unicode在很长一段时间内无法推广,直到互联网的出现。

1.4.UTF-8
UTF-8是Unicode的实现方式之一,其他实现方式还包括UTF-16和UTF-32,不过在互联网上基本不用。
互联网的普及,人们的快去要沟通越来越频繁,强烈要求出现一种统一的编码方式,UTF-8就此诞生。

UTF-8最大的一个特点,就是它是一种变长的编码方式。它可以使用1~4个字节表示一个符号,根据不同的符号而变化字节长度。

UTF-8的编码规则很简单,只有二条:
1)对于单字节的符号,字节的第一位设为0,后面7位为这个符号的unicode码。因此对于英语字母,UTF-8编码和ASCII码是相同的。
2)对于n字节的符号(n>1),第一个字节的前n位都设为1,第n+1位设为0,后面字节的前两位一律设为10。剩下的没有提及的二进制位,全部为这个符号的unicode码。

UTF-8 每字至少 1 byte,至多 4 bytes。1 byte 字符与 US-ASCII 相符。U+0800-07ff 是 2 bytes,0800-ffff 是 3 bytes,之后的是 4 bytes

下表总结了编码规则,字母x表示可用编码的位。
Unicode符号范围 | UTF-8编码方式

image.png

下面,还是以汉字“严”为例,演示如何实现UTF-8编码。
已知“严”的unicode是4E25(100111000100101),根据上表,可以发现 4E25处在第三行的范围内(0000 0800-0000 FFFF),因此“严”的UTF-8编码需要三个字节,即格式是“1110xxxx 10xxxxxx 10xxxxxx”。然后,从“严”的最后一个二进制位开始,依次从后向前填入格式中的x,多出的位补0。这样就得到了,“严”的UTF-8编码是 “11100100 10111000 10100101”,转换成十六进制就是E4B8A5。

2.实际使用场景

2.1 需求:求中英文混合长度

从上可做字符串的长度取决于我们的字符编码方式,如国标GB2312那就一个汉字两个字节,字母一个字节,如UTF-8,一个汉字是动态的长度2个字节到4个字节之间,千万别再说一个汉字在UTF-8这种unicode实现方式上是3个字节了,日韩字符集合是四个字节,当然常用的中文大部分落在3个字节范围内。所以说标准的约定很重要,客户端内部的约定,客户端与服务器端的约定。只有形成了标准才能交流实现。客户端与服务器端标准不同话,各自算出的长度都不一样,如某些场景需要截断字符串,那么就容易出问题了,客户端明明告诉服务器端截取多少个,可因为标准的不同多截了或者少截了,导致一些bug。

  NSString * text = @"1234刘a";
  NSInteger length = [text length]; //length值为6,length仅仅返回字符个数而不是存储空间大小
  NSInteger length_utf8 = [text lengthOfBytesUsingEncoding:NSUTF8StringEncoding]; //length_utf8值为8

  NSString * text1 = @"刘";
  NSInteger length_utf8 = [text lengthOfBytesUsingEncoding:NSUTF8StringEncoding];//length_utf8值为3

可见在NSUTF8StringEncoding存储形式下的unicode,中文“刘”字,占存储空间为3个字节,字符与数字均为一个字节

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,884评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,755评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,369评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,799评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,910评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,096评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,159评论 3 411
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,917评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,360评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,673评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,814评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,509评论 4 334
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,156评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,882评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,123评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,641评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,728评论 2 351

推荐阅读更多精彩内容

  • 字符集和编码简介 在编程中常常可以见到各种字符集和编码,包括ASCII,MBCS,Unicode等字符集。确切的说...
    兰山小亭阅读 8,468评论 0 13
  • 童年好遥远 回忆断了片 1 在农村长大的我们,没有机会体验托儿所、幼儿园的多彩生活,但是我们有我们的小天地。前一天...
    晨曦问早阅读 269评论 3 5