Python3 字符串的encode与decode

摘要:开始打算认真学习python,本文就python3.6 学习过程中遇到的字符编码问题,针对encode()与decode()两个内建方法,做了一点简单的实验,在此记录一下。
1. Python3.x 字符串
2. encode()与decode()
3. 继续思考
4.对中文的支持
5.总结一下
<h3 id="1">Python3.x 字符串</h3>
Python3.x字符串默认为'utf-8'编码,是通用编码Unicode的一种,它有utf-8与utf-16,简言之就是一种字符串的通用交换编码格式。

#查看系统默认字符编码格式
>>> import sys
>>> sys.getdefaultencoding()
'utf-8'

<h3 id='2'>encode()与decode() </h3>
可以先看总结部分
这两个方法的功能就类似于针对python默认字符串类型的编码和解码的功能,新建字符串默认只有encode方法,str2 = str.encode('utf-8')将str转换成utf-8的格式,于是str2就有了decode方法,然后再用str2.decode('utf-8'),将str2解码为一般字符串类型。这两个方法传入的参数是编码类型,编码和解码的顺序和参数必须要对应,先编码,后解码,否则会出错。

>>> str1 = 'abcdefg' #定义一个字符串
>>> dir(str1) #查看str1包含哪些内容
['__add__', '__class__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', ... ...., 'encode', ... ... ,'join', 'partition', 'replace', 'split', 'strip'] #这里返回一堆string类的成员变量与方法

从上面的返回结果可以看出,str1包含一个encode()方法,而使用encode()方法转换后产生一个binary类型的字符串,该字符串没有encode(),只有decode()方法

>>> str2 = str1.encode('gb2312')
>>> str3 = str1.encode('utf-8')
>>> str2,str3
(b'abcdefg', b'abcdefg')
>>> dir(str2)
['__add__', '__class__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', ... ... 'decode',... ...] #由encode()方法生成的字符串str2的encode()方法被替换成了decode()

>>> str4 = str2.decode('gb2312') #解码
>>> str4
'abcdefg'

<h3 id='3'>继续思考 </h3>
以上是基于普通的字符串类型的编码与解码,那么已经是bytes,utf-8等格式,是否能够直接进行解码呢,答案是可以的。

>>> b = b'akjdfa'
>>> b
b'akjdfa'
>>> str1 = b.decode('utf-8')
>>> str1
'akjdfa'
>>> u = u'akjdfa'
>>> u

'akjdfa'

<h3 id='4'>对中文的支持 </h3>
中文编码比ascii码复杂,也有许多编码方案,gbk、gb2312等等,此时能够体现出不同编码方案,实际存储的内容也是不同的,程序读取中文时,不同的编码方案略有不同。

>>> c = u'中文'
>>> c
'中文'

>>> cstr = c.encode('gbk')
>>> cstr
b'\xd6\xd0\xce\xc4'
>>>cstr.decode('gbk')
'中文'
>>> cstr = c.encode('utf-8')
>>> cstr
b'\xe4\xb8\xad\xe6\x96\x87'

>>>s=b'\xe4\xb8\xad\xe5\x9b\xbd\xe5\x86\x9c\xe4\xb8\x9a\xe9\x93\xb6\xe8\xa1\x8c'
>>> s
b'\xe4\xb8\xad\xe5\x9b\xbd\xe5\x86\x9c\xe4\xb8\x9a\xe9\x93\xb6\xe8\xa1\x8c'
>>> s.decode('utf-8')
'中国农业银行'

<h3 id='5'>对中文的支持</h3>
从以上各种Python命令行返回的值来看,默认的文字存储类型有两种 b'XXXX'和u'XXXX'(默认utf-8的命令行中,u是省略的'XXXX'),其中b'XXXX'存储的是字符的ascii码表示,有decode()方法,u'XXXX'有encode()方法。所谓的encode(),就是将文本流编码成ascii码表示的字符串,所谓的decode()就是将ascii码字符串翻译成真正的文本内容。就像是电文的加密与解密。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,185评论 6 503
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,652评论 3 393
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 163,524评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,339评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,387评论 6 391
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,287评论 1 301
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,130评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,985评论 0 275
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,420评论 1 313
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,617评论 3 334
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,779评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,477评论 5 345
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,088评论 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,716评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,857评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,876评论 2 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,700评论 2 354

推荐阅读更多精彩内容