摘要:开始打算认真学习python,本文就python3.6 学习过程中遇到的字符编码问题,针对encode()与decode()两个内建方法,做了一点简单的实验,在此记录一下。
1. Python3.x 字符串
2. encode()与decode()
3. 继续思考
4.对中文的支持
5.总结一下
<h3 id="1">Python3.x 字符串</h3>
Python3.x字符串默认为'utf-8'编码,是通用编码Unicode的一种,它有utf-8与utf-16,简言之就是一种字符串的通用交换编码格式。
#查看系统默认字符编码格式
>>> import sys
>>> sys.getdefaultencoding()
'utf-8'
<h3 id='2'>encode()与decode() </h3>
可以先看总结部分
这两个方法的功能就类似于针对python默认字符串类型的编码和解码的功能,新建字符串默认只有encode方法,str2 = str.encode('utf-8')将str转换成utf-8的格式,于是str2就有了decode方法,然后再用str2.decode('utf-8'),将str2解码为一般字符串类型。这两个方法传入的参数是编码类型,编码和解码的顺序和参数必须要对应,先编码,后解码,否则会出错。
>>> str1 = 'abcdefg' #定义一个字符串
>>> dir(str1) #查看str1包含哪些内容
['__add__', '__class__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', ... ...., 'encode', ... ... ,'join', 'partition', 'replace', 'split', 'strip'] #这里返回一堆string类的成员变量与方法
从上面的返回结果可以看出,str1包含一个encode()方法,而使用encode()方法转换后产生一个binary类型的字符串,该字符串没有encode(),只有decode()方法
>>> str2 = str1.encode('gb2312')
>>> str3 = str1.encode('utf-8')
>>> str2,str3
(b'abcdefg', b'abcdefg')
>>> dir(str2)
['__add__', '__class__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', ... ... 'decode',... ...] #由encode()方法生成的字符串str2的encode()方法被替换成了decode()
>>> str4 = str2.decode('gb2312') #解码
>>> str4
'abcdefg'
<h3 id='3'>继续思考 </h3>
以上是基于普通的字符串类型的编码与解码,那么已经是bytes,utf-8等格式,是否能够直接进行解码呢,答案是可以的。
>>> b = b'akjdfa'
>>> b
b'akjdfa'
>>> str1 = b.decode('utf-8')
>>> str1
'akjdfa'
>>> u = u'akjdfa'
>>> u
'akjdfa'
<h3 id='4'>对中文的支持 </h3>
中文编码比ascii码复杂,也有许多编码方案,gbk、gb2312等等,此时能够体现出不同编码方案,实际存储的内容也是不同的,程序读取中文时,不同的编码方案略有不同。
>>> c = u'中文'
>>> c
'中文'
>>> cstr = c.encode('gbk')
>>> cstr
b'\xd6\xd0\xce\xc4'
>>>cstr.decode('gbk')
'中文'
>>> cstr = c.encode('utf-8')
>>> cstr
b'\xe4\xb8\xad\xe6\x96\x87'
>>>s=b'\xe4\xb8\xad\xe5\x9b\xbd\xe5\x86\x9c\xe4\xb8\x9a\xe9\x93\xb6\xe8\xa1\x8c'
>>> s
b'\xe4\xb8\xad\xe5\x9b\xbd\xe5\x86\x9c\xe4\xb8\x9a\xe9\x93\xb6\xe8\xa1\x8c'
>>> s.decode('utf-8')
'中国农业银行'
<h3 id='5'>对中文的支持</h3>
从以上各种Python命令行返回的值来看,默认的文字存储类型有两种 b'XXXX'和u'XXXX'(默认utf-8的命令行中,u是省略的'XXXX'),其中b'XXXX'存储的是字符的ascii码表示,有decode()方法,u'XXXX'有encode()方法。所谓的encode(),就是将文本流编码成ascii码表示的字符串,所谓的decode()就是将ascii码字符串翻译成真正的文本内容。就像是电文的加密与解密。