抓取网页资源并且下载

#coding=utf-8

import urllib

import re

def getHtml(url):

page = urllib.urlopen(url)

html = page.read()

return html

def getImg(html):

# reg = r'src="(.+?\.jpg)" pic_ext'

reg = r'src="(.+?\.jpg)"'

imgre = re.compile(reg)

imglist = re.findall(imgre,html)

# return imglist

x = 0

for imgurl in imglist:

urllib.urlretrieve(imgurl,'D:\WWW\demo\python\curl\\img5\\%s.jpg' % x)

x+=1

return imglist

a=10

b=list(range(3))

for y in b:

url = "https://www.zhihu.com/topic/19552207/top-answers?page="

html = '%s%s'%(url,a)

html = getHtml(html)

print getImg(html)

# res = getImg(html)

# print res

a+=1

最后编辑于：2017.12.06 07:06:28

python3.5爬虫实例（一）简单图片抓取
为了提高教学的趣味性，先不从基本的正则表达式入手介绍，用到的时候会解释一下。先直接一个图片抓取的实例（能快速保存...
下水道潜水员阅读 1,082评论 0赞 1
Python爬虫入门（urllib+Beautifulsoup）
Python爬虫入门（urllib+Beautifulsoup）本文包括：1、爬虫简单介绍2、爬虫架构三大模块3...
廖少少阅读 9,932评论 0赞 6
Spring Cloud
Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具（例如配置管理，服务发现，断路器，智...
卡卡罗2017阅读 134,973评论 19赞 139
爬虫（1）--- Python网络爬虫二三事
1 前言作为一名合格的数据分析师，其完整的技术知识体系必须贯穿数据获取、数据存储、数据提取、数据分析、数据挖掘、...
whenif阅读 18,106评论 45赞 523
Python 实现简单的爬虫功能 -----批量下载网页中的图片
我使用的是macPro , mac 自带了python2.7 , 我自己下载了pytho3.6根据操作进行安装后,...
十二月的水瓶座阅读 1,510评论 0赞 0

赞1赞

赞赏

手机看全文