C/C++ 字符串的编码
字符串的编码需从两个方面考虑
1. 在源文件中存储时的编码
2. 在内存(运行时)和可执行文件中的编码
字符串在源文件中存储时的编码
此时的编码依赖于源文件的编码。比如源文件的编码是utf-8,那么这个字符串在文件中的编码就是utf-8。
源文件编码 | 字符串编码 |
---|---|
utf-8 | utf-8 |
ucs-16/32 | ucs-16/32 |
gb2312 | gb2312 |
...... | ...... |
字符串在内存(运行时)和可执行文件中的编码
分两种情况,使用 L 修饰符和不用 L 修饰符
使用 wchar_t 类型和 L 修饰符
const wchar_t wstring = L"你好,ABC!!!";
cout<<"wchar_t size: "<<sizeof(wchar_t)<<endl;
此时字符串 wsting 在内存中的编码依赖编译器的具体实现,可能是ucs16也可能是ucs32
输出:
Windows平台: wchar_t size: 2
Linux平台: wchar_t size: 4
使用 char 类型不用 L 修饰符,
const char * string = "你好,ABC!!!";
此时字符串string 在内存中以字节流的形式存在,其编码和在源文件中存储时的编码一致(编译器支持该编码)。
小结
在使用 char 类型时,如果想在运行时使用某种编码,源文件的编码最好和其一致,不然就要进行编码转化了,增加了额外的运算量。
使用 wchar_t 类型时,需同时使用 L 修饰符,其在运行时的编码类型固定为 ucs16/32,源文件的编码类型不会影响到运行时的编码类型。
例如
// 一个汉字
char *str = "你";
char *wstr = L"你";
cout<<"len1: "<<strlen(str)<<endl;
cout<<"len2: "<<wcslen(wstr)<<endl;
输出
在源文件编码为 utf-8 时:
len1:3
len2:1
在源文件编码为gb2312时:
len1:2
len2:1
字符串编码的转换
呵呵,这是另外一个话题了。。。