在这个周根据小组进度安排,我主要学习了Python爬虫的编写,学习主要参考:
python实现简单爬虫功能
根据博客内容,我自己尝试写了自己的爬虫代码:
获取整个页面数据
#coding=utf-8
import urllib.request
def getHtml(url):
page = urllib.request.urlopen(url)
html = page.read()
return html
html = getHtml("http://tieba.baidu.com/p/2738151262")
print (html)
Urllib 模块提供了读取web页面数据的接口
urllib.request.urlopen()方法用于打开一个URL地址
read()方法用于读取URL上的数据,向getHtml()函数传递一个网址,并把整个页面下载下来,执行程序就会把整个网页打印输出。
筛选页面中想要的数据
首先需要了解正则表达式,这是下一步学习的基础:
Python正则表达式指南
import re
import urllib.request
def getHtml(url):
page = urllib.request.urlopen(url)
html = page.read()
return html
def getImg(html):
reg = r'src="(.+?\.jpg)" pic_ext'
imgre = re.compile(reg)
imglist = re.findall(imgre,html.decode('utf-8'))
return imglist
html = getHtml("http://tieba.baidu.com/p/2460150866")
print (getImg(html))
将页面筛选的数据保存到本地
import urllib.request
import re
def getHtml(url):
page = urllib.request.urlopen(url)
html = page.read()
return html
def getImg(html):
reg = r'src="(.+?\.jpg)" pic_ext'
imgre = re.compile(reg)
imglist = re.findall(imgre,html.decode('utf-8'))
x = 0
for imgurl in imglist:
urllib.request.urlretrieve(imgurl,'%s.jpg' % x)
x+=1
html = getHtml("http://tieba.baidu.com/p/2460150866")
print (getImg(html))
这只是我们这一次项目开发的一个开始过程,相信后面会越来越深入,相信自己能够在过程中学到很多Python的知识,真正开发出一个让自己满意的在线评测网站。