还在为Python中文乱码烦恼,老司机给你讲讲

转自微信公众号:菜鸟学Python

有没有遇到过这样的问题,读取文件被提示“UnicodeDecodeError”、爬取网页得到一堆乱码,其实这些都是编码惹的祸,如果不能真正理解编码的问题所在,就像开车没有带导航,游泳没有带有度数的眼镜。如果你正在为此而 头疼,不妨来看看这篇文章,里面或许有你要的答案。

一些基本的编码知识

1).常见的编码格式

ASCII/ANSI:

ASCII可以简单理解为用于表述英文文字的编码。ANSI是ASCII的扩展,除英文外还可以表示拉丁文。

GB2312/GBK/GB18030:

“GB”既“国标”,是中国自己的编码方案,目的当然是为了描述汉字(下文我们统称 其为GB系列)。其中,GB2312是对ASCII的中文扩展,GBK和GB18030的涵盖了GB2312的所有内容,同时 又增加了近20000个新的汉字(包括繁体字)和符号。

Unicode:

既然中国搞出了自己的编码标准,那么其他国家当然也有自己的一套规范,而且相互之间互不支持,为了解决这一乱象,国际标谁化组织提出了统一的标准编码准则Unicode 。**这里大家 可以先简单记住一点:python3 Unicode **。

UTF-8:

说得官面一点,utf-8是最流行的一种对 Unicode 进行传播和存储的编码方式。其实我们可以简单理 解为,utf-8是为了节省Unicode的存储资源和传输流量而产生的一种编码方式,其所能表述的字符范围与Unicode是相等的,但是相对于Unicode它更加轻量化,相对于GB系列它的涵盖范围更广、兼容性也更好。

2).Python3中的编码与解码

Python3中有两种数据类型(注意是数据类型而不是编码方式):str和bytes。str类型存储unicode数据,用于向人展示数据,既我们所说的明文。bytes类型用于存储字节数据,用于计算机存储和传输。

明文(str)和字节(bytes)数据之间的转换关系就是编码和解码,从str到bytes叫编码,用encode命令,从bytes到str叫解码,用decode命令。需要注意的是,str数据无法进一步decode,bytes数据也无法进一步encode。

1.jpg

下面我们来看一个例子,首先看编码过程:

2.jpg

解码过程如下:

# 输入:
b = b'\xd6\xd0\xce\xc4-\xb2\xe2\xca\xd4'  # 中文-测试的gbk编码
print(b.decode('gbk'))
# 输出:
中文-测试

可以看到,encode()不加参数得到的结果与使用utf-8编码方式是一样的,因为python3中的默认编码就是utf-8,GB系列之间的编码是相同的,但是GB系列和utf-8的编码方式不一样,其编码后产生的字节数据也不相同,看到这里我们应该可以意识到,使用utf-8编码的数据只能通过utf-8进行解码,使用“GB”编码的数据也只能使用“GB”来解码,既解码与编码的规范要一致,否则就会出错。

那么不同的编码数据能否相互转换呢,当然可以,因为他们所对应的unicode数据都是统一的,看下面这张图:

image

对于一组字节数据,我们可以先将其解码为unicode数据,再使用其他的编码格式转换为相应的字节数据。

这里需要提醒一点,有人在得到一份乱码数据(str)后试图先对其编码(比如utf-8),再以另外一种方式解码(比如GB2312),这样肯定是行不通的,原因刚才我们已经讲过——编码解码要一致,解决中文乱码的正确环节应该在它出现之前。

3).编码格式识别

刚才我们已经演示了数据编码解码的过程,对于一份str数据编码可以选定我们想要的方式进行编码,那么如果拿到的是一份字节数据,如何判断它该以何种方式解码呢?**这里推荐一个第三方库chardet **,使用“pip install chardet”命令安装后导入该库,使用detect方法来判断字节数据的编码格式。

image

在上面这个例子中,我们先从文本文件中获取了一组str数据,分别使用utf-8和GB2312编码,并使用chardet.detect方法识别。

我们来看输出结果,‘encoding’参数后面的值是系统“猜测”的字节数据编码格式,‘confidence’参数后面的值可以理解为是判断可靠度,取值在0到1之间,0.99表示可靠度99%,从上面的例子中可以发现,chardet的判断还是很准确的。

常见问题及解决方法

看完了上面的内容我们可能已经察觉到,平时遇到的编码问题大多数都是编码与解码方式不一致造成的,下面我们就针对python编程过程中一些常见的编码问题来举例说明。

1.文件读写

问题描述:

大家有没有遇到过这类情况:试图打开一个文本文件却提示“UnicodeDecodeError: 'gbk' codec can't decode byte 0xxx in position XX”,或者直接打开csv文件却显示乱码?对于这类问题我们要首先了解系统文件的编码机制,以我使用的win7系统为例,文件的默认编码方式为GB2312,假如我们想要打开的是一份以utf-8或者其他非GB系列编码的文件,自然是很容易出现各类问题的。

解决办法:

对于这类问题,我们可以在程序外部使用第三方软件转换文件的编码格式,但是我更推荐另一种方式,既在代码中使用encoding参数指定编码格式,这种方式不仅适用于打开文本文件,也适用于csv等其他文件。

# 文本文件with open(r'trainers.txt', encoding='utf-8') as f:   names = f.read(100)

2.网页爬取

问题描述:

相信学python的朋友很多都玩过爬虫,如果我们需要获取的数据是数字或者英文还好,但如果我们想要获取的是中文数据,就有可能得到一堆乱码,这类问题产生的原因与文件操作道理是一样的,既系统默认选择的编码方式与网页数据的实际编码方式不一致。

python里请求网页获取数据的方式很多,这里以Requests库为例进行说明,当请求发出后,Requests 会基于HTTP头部对响应的编码作出有根据的推测,并返回一个名为r的Response对象。

当你访问 r.text 之时,Requests 会使用其推测的文本编码,当Requests的推测与实际情况不符时,错误就发生了。

解决办法:关于这个问题,Requests文档里已经给出了明确解决方案,既使用r.encoding属性来手动指定编码方式(例如:r.encoding='GBK'),那么我们如何确定网页数据的真实编码方式呢?一般来说可以按照优先级依次查看以下三个位置:

  • http header的Content-Type参数

  • 网页头中<meta>标签的charset参数

  • 网页头中Document的charset参数

例如,新浪体育的网页数据编码方式可以在网页头的<meta>标签找到

image

如果以上三处都无法找到网页编码怎么办?不要怕,我们还可以使用r.content属性来获得网页的字节数据(类似“\xe4\xb8\xad\xe6\x96\x87-\xe6\xb5\x8b\xe8\xaf\x95”的形式),然后使用上面提到的chardet库来进行识别。

如果使用爬虫框架或者其他方式获取网页数据,具体的操作方式可能略有不同,但处理编码问题的道理都是一样的。

这里还要提醒一点,网上有一些爬虫教程示例,返回的数据是“\xe4\xb8\xad\xe6......”形式的字节数据,看完这篇文章我们知道这并不是乱码,只需要以对应的方式进行解码即可。

3.巧用errors参数

问题描述:

如果找到了文件的编码并用对应的方式进行编码和解码就一定不会出错吗?当然不是,之前我在使用python分析武侠小说的时候就遇到过这个问题,虽然使用正确的编码方式(GB2312)来读取文本文件但依然报错,经过分析发现是由于文本中有一些特殊字符无法识别。

解决方法:

设置errors参数将那些制造问题的字符忽略掉,获取对我们真正有用的数据。

with open(r'楚留香系列午夜兰花.txt', errors='ignore') as f:   text = f.read()

同类的问题在爬取网页时也有可能遇到,解决思路都是一样的。

另外,errors参数的作用还有很多,例如我们想获取既能被GBK识别又能被GB2312识别的数据(前面我们说过GBK编码的涵盖范围要比GB2312多),可以先使用GB2312对其进行编码,同时忽略到无法识别的字符,随后再以GB2312的方式解码,代码如下:

data_2312 = data.encode('gb2312', errors='ignore').decode('gb2312')
image.gif

关于Python中常见的中文编码问题今天就先介绍到这里,需要注意的是,python2和python3的编码方式略有不同,本文内容主要针对python3。Python的知识点非常多,大家平时要养成记笔记的习惯,把自己的一些心得记下来,学会总结是一个不错的习惯


©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,640评论 6 507
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,254评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 165,011评论 0 355
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,755评论 1 294
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,774评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,610评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,352评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,257评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,717评论 1 315
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,894评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,021评论 1 350
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,735评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,354评论 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,936评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,054评论 1 270
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,224评论 3 371
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,974评论 2 355

推荐阅读更多精彩内容