简单明白彻底解决 MySQL 中文编码问题
1. 问题重现
mysql> create database school;
mysql> use school;
mysql> create table student(name varchar(10));
mysql> insert into student values("Clarke");
mysql> select * from student;
+--------+
| name |
+--------+
| Clarke |
+--------+
mysql> insert into student values("唐三");
# 插入中文失败
ERROR 1366 (HY000): Incorrect string value: '\xE5\x94\x90\xE4\xB8\x89' for column 'name' at row 1
2. 分析和解决
2.1 数据库编码设置
2.1.1 查看 MySQL 程序编码设置
mysql> show variables like 'char%';
+--------------------------+----------------------------+
| Variable_name | Value |
+--------------------------+----------------------------+
| character_set_client | latin1 |
| character_set_connection | latin1 |
| character_set_database | latin1 |
| character_set_filesystem | binary |
| character_set_results | latin1 |
| character_set_server | latin1 |
| character_set_system | utf8 |
| character_sets_dir | /usr/share/mysql/charsets/ |
+--------------------------+----------------------------+
可以看到,设置里有很多的编码设置是 latin1,这个编码是无法正确显示中文的,如果你的设置也是这样,这就是导致中文编码问题的可能原因。
关于这些设置的含义:
option | desc |
---|---|
character_set_client | 客户端使用的字符编码,如果客户端连接时没有设置,或者服务端已配置为忽略客户端的设置 |
character_set_connection | 客户端设置连接数据库时的字符编码,如果客户端没有指明,则连接数据库使用该设置的编码 |
character_set_database | 当前选中数据库的默认字符编码,如果没有选中数据库(use <database>),则和 character_set_server 的值一致 |
character_set_filesystem | 文件系统的编码格式,把操作系统上的文件名转化成此字符集,即把 character_set_client转换character_set_filesystem, 默认binary是不做任何转换的 |
character_set_results | 数据库给客户端返回时使用的编码格式,如果客户端连接时没有指明,则使用该编码 |
character_set_server | 数据库服务器默认编码格式,创建数据库时默认使用 |
character_set_system | 数据库系统使用的编码格式,这个值一直是utf8,不需要设置,它是为存储系统元数据的编码格式 |
character_sets_dir | 这个变量是字符集安装的目录 |
2.1.2 修改编码设置
编码设置中我们需要关注的是下面 5 个字符编码设置:
# 服务端相关
character_set_server
character_set_database #当前选中数据库的编码,这个设置不需要手动修改
# 客户端相关
character_set_client
character_set_connection
character_set_results
修改编码设置的方式有三种。
方式1: session 范围修改
mysql> set character_set_server=utf8mb4
建议使用 utf8mb4 编码而不是 utf8,因为 MySQL 的 utf8 编码有点小问题,可以自行百度 MySQL 中 utf8 和 utf8mb4 的区别
这种修改方式是 session 范围的,也就是当前的 MySQL 连接结束后,设置就失效了。
其他几个编码设置也一样修改。
方式2: global 范围修改
mysql> set global character_set_server=utf8mb4
global 范围下的修改,重新连接依然有效,直到 MySQL 服务端重启。
方式3: 修改配置文件
想要编码设置在 MySQL 服务端重启后依然生效,可以修改配置文件。
不同平台的配置文件位置不一样,可以通过下面命令查看:
➜ ~ mysql --verbose --help | grep my.cnf
/etc/my.cnf /etc/mysql/my.cnf /usr/local/mysql/etc/my.cnf ~/.my.cnf
除了~/.my.cnf
文件是用户级别的外,其他几个位置都是系统级别的,如果该位置没有my.cnf
文件,就新建一个文本文件,命名为 my.cnf
。
windows 系统下,这个文件叫 my.ini
。
在 my.cnf
文件中添加以下内容:
[mysqld]
character_set_server=utf8mb4
collation_server=utf8mb4_unicode_ci
[client]
default_character-set=utf8mb4
更多信息参考: A.11 MySQL 8.0 FAQ: MySQL Chinese, Japanese, and Korean Character Sets
配置项说明:
character-set-server 设置影响 character_set_server 的值,character_set_database 的值在未选中当前数据库的情况下下,默认跟随 character_set_server 的值。
default-character-set 影响 character_set_client, character_set_connection, character_set_results 三者的值。
在 MySQL 连接终端中执行
SET NAMES <charset>
也是影响的 character_set_client, character_set_connection, character_set_results 三者的值
- collation_server 影响 orderby 的排序结果,建议设置 character-set-server 的同时也要设置
关于 character_set_server 和 collation_server: MySQL doc - sysvar_character_set_server
修改配置文件后重启 MySQL,再查看下编码设置,
mysql> show variables like 'char%';
+--------------------------+----------------------------+
| Variable_name | Value |
+--------------------------+----------------------------+
| character_set_client | utf8mb4 |
| character_set_connection | utf8mb4 |
| character_set_database | utf8mb4 |
| character_set_filesystem | binary |
| character_set_results | utf8mb4 |
| character_set_server | utf8mb4 |
| character_set_system | utf8 |
| character_sets_dir | /usr/share/mysql/charsets/ |
+--------------------------+----------------------------+
可以看到已经生效了,5 个相关设置已经修改为 utf8mb4。
三种修改方式,优先选择修改配置文件,其次的选择或者想要灵活设置的话,可以在终端会话中设置。
2.2 已创建的数据库的编码
如果上面的配置已经修改完成,可能仍然有中文编码问题,因为对于已经创建完成的数据库和表,它的编码在创建时已经确定了,前面的配置项(character_set_server)已经不能影响了,需要逐个修改相应的数据库,表,列。
2.2.1 具体数据库的编码
查看完整的数据库创建语句:
mysql> show create database school;
+----------+-------------------------------------------------------------------+
| Database | Create Database |
+----------+-------------------------------------------------------------------+
| school | CREATE DATABASE `school` /*!40100 DEFAULT CHARACTER SET latin1 */ |
+----------+-------------------------------------------------------------------+
可以看到数据库 school
的默认编码仍然是 latin1
,改起:
mysql> alter database school character set 'utf8mb4';
mysql> show create database school;
+----------+--------------------------------------------------------------------+
| Database | Create Database |
+----------+--------------------------------------------------------------------+
| school | CREATE DATABASE `school` /*!40100 DEFAULT CHARACTER SET utf8mb4 */ |
+----------+--------------------------------------------------------------------+
2.2.2 表的编码
在前一节,数据库 school
的默认编码已经修改为 utf8mb4
,接下来看数据表的默认编码:
mysql> show create table student;
+---------+---------------------------------------------------------------------------------------------------+
| Table | Create Table |
+---------+---------------------------------------------------------------------------------------------------+
| student | CREATE TABLE `student` (
`name` varchar(10) DEFAULT NULL
) ENGINE=InnoDB DEFAULT CHARSET=latin1 |
+---------+---------------------------------------------------------------------------------------------------+
看到数据表 student
的默认编码仍然是 latin1
,再改起:
mysql> alter table student character set 'utf8mb4';
Query OK, 0 rows affected (0.03 sec)
Records: 0 Duplicates: 0 Warnings: 0
mysql> show create table student;
+---------+-------------------------------------------------------------------------------------------------------------------------+
| Table | Create Table |
+---------+-------------------------------------------------------------------------------------------------------------------------+
| student | CREATE TABLE `student` (
`name` varchar(10) CHARACTER SET latin1 DEFAULT NULL
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 |
+---------+-------------------------------------------------------------------------------------------------------------------------+
2.2.3 列的编码
在上一节可以看到,数据表 student
的默认编码已经修改为 utf8mb4
,但是列 name
的编码还是 latin1
,改起!
mysql> alter table `student` change `name` `name` text character set 'utf8mb4';
Query OK, 1 row affected (0.04 sec)
Records: 1 Duplicates: 0 Warnings: 0
mysql> show create table student;
+---------+--------------------------------------------------------------------------------+
| Table | Create Table |
+---------+--------------------------------------------------------------------------------+
| student | CREATE TABLE `student` (
`name` text
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 |
+---------+--------------------------------------------------------------------------------+
到这里,对于已经存在的数据库,修改完成,再插入中文试试:
mysql> insert into student value("昊天");
Query OK, 1 row affected (0.00 sec)
mysql> select * from student;
+--------+
| name |
+--------+
| Clarke |
| 昊天 |
+--------+
2 rows in set (0.00 sec)
成功!到此,中文编码的问题就解决了。
2.3 防御性编码
为了防止意外的情况发生,我们可以采取更健壮的防御性编码的方式,哪怕数据库服务端的编码设置不正确,我们仍然可以插入中文数据。
具体就是在创建数据表的时候指定默认编码:
mysql> show variables like 'char%';
+--------------------------+----------------------------+
| Variable_name | Value |
+--------------------------+----------------------------+
| character_set_client | latin1 |
| character_set_connection | latin1 |
| character_set_database | latin1 |
| character_set_filesystem | binary |
| character_set_results | latin1 |
| character_set_server | latin1 |
| character_set_system | utf8 |
| character_sets_dir | /usr/share/mysql/charsets/ |
+--------------------------+----------------------------+
8 rows in set (0.00 sec)
# 指定存储引擎,编码,排序规则
mysql> create table course(name varchar(32)) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_unicode_ci;
Query OK, 0 rows affected (0.03 sec)
mysql> insert into course value('高数');
Query OK, 1 row affected (0.01 sec)
mysql> select * from course;
+--------+
| name |
+--------+
| 高数 |
+--------+
1 row in set (0.00 sec)
或者直接在创建数据库的时候就指定编码:
mysql> create database school DEFAULT CHARACTER SET utf8mb4;
3. 总结
解决 MySQL 中文编码问题的步骤:
查看数据库编码设置
修改编码设置,在终端中修改设置项,或者修改配置文件
my.cnf
以永久生效对于之前创建的数据库,修改数据库,数据表,数据列的默认编码
最佳实践:防御性编码,在数据库创建语句中指定默认编码。
参考: