登录注册写文章

Python豆瓣爬虫学习笔记（四）

Python豆瓣爬虫学习笔记（四）

学习阶段四（update:2014-3-26）:实现功能：整理单个tag下的所有页面链接代码如下：

# -*- coding: cp936 -*-

import urllib2

import re

raw_text=urllib2.urlopen('http://movie.douban.com/tag/cult').read()#指定打开cult标签页

text0=re.findall('page="\d{1,}"',raw_text)#初步提取总页面数，人工查看代码后发现page="\d{1,}表示总页面

text1=''.join(text0)

text2=text1.replace('page=','').replace('"','')#得出总页面的具体值

text5=[]

for text3 in range(int(text2)):#range生成页面数列表，循环读取

text4='http://movie.douban.com/tag/cult?start=%d&type=T'%(text3*20)+'\n'#人工发现url规律为页面数*20, 最后\n为排版需要

text5.append(text4)

text6=''.join(text5)

e=file('douban_movie8.txt','w')

e.write(text6)

e.close()

运行结果：

学习总结：range(int(text2))和%(text3*20)可减少代码行数

最后编辑于：2017.11.27 00:54:20

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

Python豆瓣爬虫学习笔记（五）
学习阶段五(update:2013-3-28 0:38):实现功能：为减少工作量，仅抓取所有tag页下前3页电影信...
瓦力求索阅读 2,615评论 0赞 3
Python豆瓣爬虫学习笔记（六）
一周没有更新了，在阅读crossin.me中jxgx072037写的代码时发现不懂的地方太多，一点点啃下来花费了不...
瓦力求索阅读 3,777评论 0赞 2

Python豆瓣爬虫学习笔记（三）
学习阶段三(update：2014-3-25)：实现功能：抓取所有tag的第一页电影的链接，名字，别名，评分，评价...
瓦力求索阅读 3,218评论 0赞 3
Python豆瓣爬虫学习笔记（二）
学习阶段二(update:2014-3-25)：实现功能：代码中加入for循环，批量抓取全部tag，存放到本地tx...
瓦力求索阅读 1,566评论 0赞 3
Python豆瓣爬虫学习笔记（一）
这系列文章首发于crossin.me一个非常适合零基础学python的论坛，强烈推荐。当时还没有建博客。本人零技...
瓦力求索阅读 4,357评论 0赞 22

3赞4赞

赞赏

手机看全文