2018-1-31
大家在用javac编译.java文件,或者用gcc/g++编译时是否遇到过这样一个问题,中文字符会乱码。从而伴随着一系列的问题,什么编译过不,某某编译方式不可映射等。那么这个时候我们就需要明白其中的道理,然后再用正确的方法去解决它。
举个java的例子来说,在用javac进行编译的时候,如果你不指定解码的方式,那么将会自动选择系统当前的编码方式来对源程序的字节码进行转换。这个时候问题就来了。因为.java文件是用其中一种编码方式来编码的,而你却用的其它编码方式去转换,那势必会造成不能生成对应的.class文件。用gcc/g++编码也是一样的道理。
解决办法:
java中:
在windows下(注意是Windows下喔,其他系统比如Linux可不能这样做),你可以用记事本打开程序,然后点击另存为,接着选择编码方式为ANSI,确定之后再次编译就可以了。但是这样难免有些麻烦,因为每次都要这样做,所以可以通过在命令行中进行指定编码方式来解决,比如:
javac -encoding utf-8 xxx.java
这里假设.java文件是以utf-8的编码方式进行保存的,所以指定为utf-8,也就是说,用什么方式保存文件就应该指定为对应的编码方式。
在gcc/g++中:
类似于java中,你也可以用记事本来改变文本的编码方式,在windows下改为ANSI编码,但是为了方便,也是可以在命令行中解决的,在windows下,可以:
gcc/g++ -fexec-charset=GBK xxx.c/xxx.cpp -o xxx.exe
下面,我将截图来说明上面我的解释:
首先是java中的代码,截图如下:
在这个例子中,我故意输出中文来说明问题。接下来,我们用javac来进行编译,但是不设置编译时的编码方式,截图如下:
然后我们运行.class文件发现出现了乱码:
然后我们编译时加上编码方式:
然后就没有乱码了:
我想,聪明的你,也可以自己试一试g++编译了,分别指定编码方式和不指定编码方式,看看会出现什么效果,我想这样你自己的印象会更加深刻,这里我就不演示了。
既然有了现象,那么接下来我们就要解释现象,解释为什么要指定编码方式。
首先我们来解释java中编译时应该注意的编码问题:
(1)首先我们在编写.java文件的时候,必定会采用某种编码方式进行编码,将生成的字节流写入.java文件中。在解码的时候也必须采用相同的编码方案,不然就会出现乱码。这个乱码可能是在编译的时候以警告的形式出现,或者在运行的时候出现乱码。
(2)写好代码之后,我们就要进行编译了,编译分为两个过程,分别是:
- 对源代码字节流进行解码,转换成字符流
-
对上述过程中生成的字符流进行语法分析,然后用utf-8对字符流进行编码,生成字节流,并且写入到.class文件中。.class文件能够在java虚拟机中运行,最后这个过程生成的字节码也正是java程序移植性强的原因。
解释到这里,聪明的你应该已经明白了我们出现乱码的原因了。是的,就是解码的过程。因为源程序字节流在你保存.java文件的时候已经指定了编码方式,如果你在解码的时候用另外一种编码方式去解码当然就会出现乱码啦,以至于第二个步骤对生成的字符流进行编码也乱套了。
那么,也许你会问,怎么指定解码方式呀?诶,-encoding utf-8这个不就是咯,-encoding后面跟你想用的解码方式即可。
那么为什么我不指定的时候有时也会出错呀?那是因为如果你不指定的话,用javac进行编译的时候就会默认使用当前系统的编码方式来进行解码,比如在简体中文Windows操作系统中,编码方式是GBK,所以即使你不指定,它也会默认使用GBK来进行解码。当你的文件不是用GBK格式保存时,就会出现乱码的现象。
(3)也许还有一个需要解释的就是,上面我展示的例子中,如果在编译的时候不指定解码方式,编译的时候并不会出现错误,但是运行的时候的确出现了乱码。这个涉及到编码的问题,咱们稍后再解释。