Unicode字符, utf8编码, 展示小工具

Unicode

www.unicode.org/Public/UNIDATA/Blocks.txt

Utf-8编码规则

image.png

Unicode 和 UTF-8 有什么区别? - 知乎 (zhihu.com)

代码


package com.vege;

import org.apache.tomcat.util.buf.HexUtils;

import java.io.IOException;
import java.nio.charset.StandardCharsets;
import java.util.HashMap;
import java.util.Map;

public class UnicodeToUtf8 {

    // 字符和十六进制数的映射
    private static final Map<Character, Integer> map = new HashMap<>();

    static {
        map.put('0', 0);
        map.put('1', 1);
        map.put('2', 2);
        map.put('3', 3);
        map.put('4', 4);
        map.put('5', 5);
        map.put('6', 6);
        map.put('7', 7);
        map.put('8', 8);
        map.put('9', 9);
        map.put('A', 10);
        map.put('B', 11);
        map.put('C', 12);
        map.put('D', 13);
        map.put('E', 14);
        map.put('F', 15);
    }

    public static void main(String[] args) throws IOException {

        // 打印unicode中, "0x4DC0"对应的utf8编码的字符
        String temp = unicodeToUtf8Str(hexStrToInt("4DC0"));
        System.out.println("0x4DC0 - " + temp);
        System.out.println();

        // ======================================================

        // 打印从from到to的所有的unicode字符
        // 每16个一行
        int from = 0x4DC0;
        int to = 0x4DFF;
        for (int i = from, j = 0; i < to; i++, j++) {
            if (j % 16 == 0) {
                System.out.println();
                String start = "0x" + HexUtils.toHexString(intToByteArrayHighFirst(i)).substring(2);
                String end = start.substring(0, start.length() - 1) + "f";
                System.out.println("-> " + start + " - " + end + " : ");
            }

            System.out.print("\t");
            System.out.print(unicodeToUtf8Str(i));
        }

        System.out.println();
    }

    /**
     * 字符串形式的十六进制数转成int
     * eg. "4DC0" -> 19904
     *
     * @param str 字符串形式的十六进制数
     * @return 对应的整型数据
     */
    private static int hexStrToInt(String str) {
        int result = 0;
        for (char c : str.toCharArray()) {
            if (!map.containsKey(c)) {
                throw new RuntimeException("invalid char");
            }
            result = (result << 4) | map.get(c);
        }
        return result;
    }

    /**
     * 携带有unicode编码的信息整型数据 (int有32bit,unicode只用到低位24个bit)
     * 转成对应的utf-8的字符
     * <p>
     * 注意这里仅传入单个unicode编码, 传出单个utf8编码的字符
     *
     * @param unicode 单个unicode编码
     * @return 单个utf8编码的字符
     */
    private static String unicodeToUtf8Str(int unicode) {
        if (unicode >= 0 && unicode <= 0x7F) {
            byte b = (byte) unicode;
            byte[] bytes = new byte[1];
            bytes[0] = b;
            return new String(bytes, StandardCharsets.UTF_8);
        } else if (unicode > 0x7F && unicode <= 0x7FF) {
            int temp = unicode & 0b11111111111;
            byte b1 = (byte) (0b11000000 | (temp >> 6));
            byte b2 = (byte) (0b10000000 | (temp & 0b111111));
            byte[] bytes = new byte[2];
            bytes[0] = b1;
            bytes[1] = b2;
            return new String(bytes, StandardCharsets.UTF_8);
        } else if (unicode > 0x7FF && unicode <= 0xFFFF) {
            int temp = unicode & 0b1111111111111111;
            byte b1 = (byte) (0b11100000 | (temp >> 12));
            byte b2 = (byte) (0b10000000 | ((temp & 0b111111000000) >> 6));
            byte b3 = (byte) (0b10000000 | (temp & 0b111111));
            byte[] bytes = new byte[3];
            bytes[0] = b1;
            bytes[1] = b2;
            bytes[2] = b3;
            return new String(bytes, StandardCharsets.UTF_8);
        } else if (unicode > 0x10000 && unicode <= 0x10FFFF) {
            int temp = unicode & 0b111111111111111111111;
            byte b1 = (byte) (0b11110000 | (temp >> 18));
            byte b2 = (byte) (0b10000000 | ((temp & 0b111111000000000000) >> 12));
            byte b3 = (byte) (0b10000000 | ((temp & 0b111111000000) >> 6));
            byte b4 = (byte) (0b10000000 | (temp & 0b111111));
            byte[] bytes = new byte[4];
            bytes[0] = b1;
            bytes[1] = b2;
            bytes[2] = b3;
            bytes[3] = b4;
            return new String(bytes, StandardCharsets.UTF_8);
        } else {
            throw new RuntimeException("error unicode");
        }
    }

    /**
     * int转byte数组, int高位的部分存在数组低位的槽中
     * eg. 19904 -> new byte[] {0b00000000, 0b00000000, 0b01001101, 0b11000000}
     *
     * @param a 整型数据
     * @return byte数组
     */
    private static byte[] intToByteArrayHighFirst(int a) {
        byte[] b = new byte[4];
        b[3] = (byte) (a & 0xff);
        b[2] = (byte) (a >> 8 & 0xff);
        b[1] = (byte) (a >> 16 & 0xff);
        b[0] = (byte) (a >> 24 & 0xff);
        return b;
    }

}

结果

image.png
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,837评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,551评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,417评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,448评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,524评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,554评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,569评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,316评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,766评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,077评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,240评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,912评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,560评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,176评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,425评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,114评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,114评论 2 352