学习阶段四(update:2014-3-26):实现功能:整理单个tag下的所有页面链接代码如下:
# -*- coding: cp936 -*-
import urllib2
import re
raw_text=urllib2.urlopen('http://movie.douban.com/tag/cult').read()#指定打开cult标签页
text0=re.findall('page="\d{1,}"',raw_text)#初步提取总页面数,人工查看代码后发现page="\d{1,}表示总页面
text1=''.join(text0)
text2=text1.replace('page=','').replace('"','')#得出总页面的具体值
text5=[]
for text3 in range(int(text2)):#range生成页面数列表,循环读取
text4='http://movie.douban.com/tag/cult?start=%d&type=T'%(text3*20)+'\n'#人工发现url规律为页面数*20, 最后\n为排版需要
text5.append(text4)
text6=''.join(text5)
e=file('douban_movie8.txt','w')
e.write(text6)
e.close()
运行结果:
学习总结:range(int(text2))和%(text3*20)可减少代码行数