登录注册写文章

（10）一个字符占几个字节？

（10）一个字符占几个字节？

问题：理论是2字节（汉字字母）。UTF-8时new String("字").getBytes().length 返回3

一、R大回答：

分清楚内码（internal encoding）、外码（external encoding）

内码：程序内部用的字符编码，实现char、String类型内存里用内部编码；

规定内码UTF-16。或让用户无感知到String用非UTF-16

外码：程序与外部交互用字符编码。不是内存用都是“外部”。如，序列化后char或String，或外部文件、命令行参数。

规定外码UTF-8。Class的字符串常量、符号名字也是。为了平衡运行时的时间效率（定长UTF-16）与外部存储空间效率（变长UTF-8）做取舍。

Java语言规范规定，char是UTF-16的code unit，也就是一定是16位（2字节）；

答：String.getBytes():内码转指定外码。外码UTF-8，得到byte[]外码性质

题外话：

（1）JavaScript用UTF-16作为内码，“压缩字符串”用ASCII内码字符串，用户只能看到UTF-16 code unit。

（2）UTF-16：大部分定长2字节，偶尔4，无法兼容于ASCII编码

二、回答：脱离具体编码谈某个字符占几个字节，没意义

1、同一个字符不同编码，占不同字节

（1）抽象整数“42”占几个字节？

byte 存 1 字节（有限位数，256 无法存），short 2，int 4，long 8 字节

“字”GBK 2 ，UTF-16 2 ，UTF-8 3，UTF-32 4 字节

2、不同字符，同编码下，占不同字节

UTF-8 变长：“字”3字节，“A” 1 字节。

new String("字").getBytes("GBK").length ”，返回2

https://www.zhihu.com/question/27562173

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

深入分析 Java 中的中文编码问题http://www.ibm.com/developerw...
编码问题一直困扰着开发人员，尤其在 Java 中更加明显，因为 Java 是跨平台语言，不同平台之间编码之间的切换...
x360阅读 2,507评论 1赞 20
几种常见的编码格式
为什么要编码不知道大家有没有想过一个问题，那就是为什么要编码？我们能不能不编码？要回答这个问题必须要回到计算机是...
艾小天儿阅读 17,530评论 0赞 2
德译 | 对协议类文本的翻译处理与思考
考虑到客户文件保密性，此文不会列出任何具体案例，仅对同类文本均会出现的结构化内容进行语言层面的讨论，以及翻译层面的...
惟生阅读 580评论 0赞 2
全程高能无尿点的丧尸片，我首推它
说到布拉德·皮特这个名儿，应该无人不晓。第一次看《夜访吸血鬼》的时候，整个人完全惊呆。这就是布拉德·皮特，怪不...
阳哥撩热剧阅读 313评论 0赞 0
有点收获
我是日记星球的685号星宝宝李志玲，正在参加孙老师的写作训练。这是第三十五期，我的原创第61篇，相信日积月累，滴水...
玲玲每天进步一点点阅读 231评论 1赞 1

赞1赞

手机看全文