刚开始爬虫经常会被编码问题坑,今天看了python的requests库的官方文档和几种常见编码的关系,在这里做个简单的小结。
这里用百度做例子说明。
import requests
r = requests.get('http://www.baidu.com')
print(r.encoding)
print(r.text)
执行代码后输出如下:
我们可以看到返回response编码类型为 ISO-8859-1,文本输出中中文字符为乱码。
那么最简单的解决方案就是增加utf-8编码转化,如下:
import requests
r = requests.get('http://www.baidu.com')
r.encoding = 'utf-8'
print(r.encoding)
print(r.text)
再次执行代码,
我们发现问题已经顺利的解决了。