By 一页编程
下面以几个例子来熟悉一下Requests库的使用,至于说怎么能够从返回的信息中解析返回的内容,那是我们后面将要讲的内容。
爬取京东商品页面
这里面我们选取的是华为的一款手机,看下面代码:
import requests
url = "https://item.jd.com/3888278.html"
try:
r = requests.get(url)
r.raise_for_status()
r.encoding = r.apparent_encoding
print(r.text[:1000])
except:
print("爬取失败")
上述代码可以正常返回HTML数据,比较简单,没有任何问题。
百度搜索关键词提交
百度搜索,大家都知道,有没有可能用程序自动的向这个搜索引擎提交个关键词,并且获得它的搜索结果呢?
我们在百度随便搜索一个关键词,然后查看URL,可以很容易的得到百度搜索的接口:
http://www.baidu.com /s?wd= keyword
只要我们替换keyword就可以向搜索引擎提交关键词了。下面我们用requests库来实现这个代码,以搜索”Python“关键词为例。
import requests
keyword = "python"
url = "https://www.baidu.com/s"
try:
kv = {'wd': keyword}
r = requests.get(url, params = kv)
r.raise_for_status()
r.encoding = r.apparent_encoding
print(r.text[:1000])
except:
print("爬取失败")
其他搜索引擎和百度的搜索方法很类似,大家可以尝试一下。
网络图片的爬取和存储
首先,我们看一下网络上图片链接的格式。网络上图片链接基本都是这样一个格式:
http://www.example.com/picture.jpg
比如我们随便在网上找到一个图片,右键点击属性,就可以看到图片的真实地址:http://image.nationalgeographic.com.cn/2017/0403/20170403115136772.jpg
我们如何通过图片URL,把它保存到本地呢?
我们知道返回的图片信息是一个二进制格式文件,也就是Response对象的content属性,我们把二进制形式写入到文件就可以了,下面看代码:
import requests
path = "D:/picture.jpg"
url = "http://image.nationalgeographic.com.cn/2017/0403/20170403115136772.jpg"
r = requests.get(url)
with open(path, 'wb') as f:
f.write(r.content)
通过这样的方式,我们就把网上的图片保存到了D盘,文件名为picture.jpg
。
这段代码虽然可以实现我们的想法,但是有很多问题,比如没有异常处理、文件没有关闭、不能用原始文件名保存图片等,下面我们给出优化后的代码:
import requests
import os
url = "http://image.nationalgeographic.com.cn/2017/0403/20170403115136772.jpg"
root = "D://pics//"
path = root + url.split('/')[-1]
try:
if not os.path.exists(root):
os.mkdir(root)
if not os.path.exists(path):
r = requests.get(url)
with open(path, 'wb') as f:
f.write(r.content)
f.close()
print("文件保存成功")
else :
print("文件已存在")
except:
print("爬取失败")
事实上,除了图片排序之外,网上有很多的资源,都是类似的url格式,比如说网上的一个视频,比如说网上的一个音乐,比如说网上的一个动画等等,我们可以用这个代码去修改,能够获取网络上得很多的不同的资源。