初识Python
,本章主要做一下学习记录,如有错误,欢迎斧正
爬虫步骤:
- 确定爬取目标
- 分析页面
- 抓取页面内容,解析目标字段
- 保存目标
1. 确定爬取目标
如题,今天需要爬取豆瓣美女图片,也就是这个页面
2. 分析页面
打开页面,分析页面元素,如图方法,可以得出需要下载的图片,在<img>
标签里可以找到
3. 抓取、解析
这里使requests
库做网络请求,使用BeautifulSoup
做解析
print('正在抓去取:'+page)
page_response = requests.get(page)
# 判断请求是否成功
if page_response.status_code == 200:
# soup 解析html文件
soup = BeautifulSoup(page_response.text,features='html.parser')
# 获取html中的所有img标签内容
images = soup.find_all('img')
for img in images:
# 获取img标签中的src标签
image_url = img.get('src')
4. 下载保存
单纯的文件io,想具体了解可以看这里
print('正在下载:'+link)
global page_index
page_index += 1
image_response = requests.get(link)
# 先判断是否有图,下载保存就是单纯的文件写入
if image_response.status_code == 200:
with open('./images/{}.jpg'.format(str(page_index)), 'wb') as f:
f.write(image_response.content)
PS:
大致代码就这么点了,剩下的就是不同页面、不同类别的图片分析下载
爬虫说白了就是页面信息提取,做之前先想想清楚,动起手来就快了