Python爬虫日记一:爬取豆瓣电影中速度与激情8演员图片

一、前言

这是我第一次写文章,作为一个非计算机,编程类专业的大二学生,我希望能够给像我这样的入门的朋友一些帮助,也同时激励自己努力写代码。好了废话不多说,今天我做的爬虫是豆瓣的一个电影——速度与激情8的全部影人页面,贴出网址:速度与激情8 全部影人
目标:爬取速度与激情8中全部影人的图片并且用图中人物的名字给图片文件命名,最后保存在电脑中。

豆瓣1.png

二、运行环境

  • 系统版本
    Windows10 64位
  • Python版本
    Python3.6 我用的是Anaconda集成版本
  • IDE
    PyCharm 学生可以通过edu邮箱免费使用,不是学生的朋友可以试试社区版,不明白怎么安装的可以留言或者 私信我。

三、分析

爬虫的三个要点:请求,解析,存储
请求可以使用urllib Requests ,其中urllib是自带的, Requests是第三方库,功能更强大,本次使用的是urllib。
解析我用的有正则表达式,xpath,本次使用的是正则表达式,主要是想自己用正则来练练 只看正则的说明不能理解其中的奥秘ヾ(o◕∀◕)ノヾ,必须多试试。
储存常用的有保存到内存,数据库,硬盘中,本次是保存到电脑硬盘中

四、实战

首先导入我们需要的模块
import urllib.request import os import re
urllib.request是用来请求的,os是操作文件目录常用的模块,re是python中正则表达式的模块,
url = 'https://movie.douban.com/subject/26260853/celebrities' r = urllib.request.urlopen(url) html = r.read().decode('utf-8')
第一行很明显是本次爬虫的网页, r = urllib.request.urlopen(url)用来打开网页, r.read()是读取网页内容,decode('utf-8')是用utf-8编码对字符串str进行解码,以获取unicode。

之后我们来获取一下图片的地址,用Chrome浏览器打开速度与激情8的全部影人页面,按下F12,分析一下,可知每个人的照片地址都是img1或者3.doubanio.com/img/celebrity/medium/几个数字.jpg

Paste_Image.png

我们使用正则表达式来匹配一下这些图片地址,1或者3部分用\d匹配,末尾数字部分用.*来匹配即可。
result = re.findall(r'https://img\d.doubanio.com/img/celebrity/medium/.*.jpg',html)
现在图片地址也有了,还需要把这些人物的名字给爬下来,之后才能配对文件,再次分析一下刚才的网址。看到这些人物的名字都是以title=开头,我们就用它来正则匹配一下,来获取全部的人物名字,放进一个列表中。
Paste_Image.png

result2 = re.findall(r'(?<=title=").\S+', html) result2.pop() result3 = sorted(set(result2), key=result2.index) result3.pop(-3)
第一行代码中re.findall(r'(?<=title=").\S+', html)用来匹配截图中title="后面的名字
第二行代码中pop()是去除最后一个元素,因为前面匹配后的列表中有一个非人物名字的元素所以我们就需要把它去掉
第三行代码中sorted(set(result2), key=result2.index)有两个功能,一个是使用set()集合函数来去除列表中重复元素,另一个是sorted()函数是给列表排序用的,key=result2.index的意思是以result2原来的索引顺序来给新的列表排序,因为每张图片很名字是对应的,如果单单使用set(),虽然重复的去除了但是顺序也变了,所以我们需要利用sort()结合key=result2.index来排序才行。
result3.pop(-3)意思是删除result3中倒数第三个元素,因为克里斯·摩根这个没照片所以我就把他删了。

之后我们来给本地创建一个文件夹用来保存图片,这里就用到了os模块
if not os.path.exists('douban'): os.makedirs('douban')

之后需要的是下载这些人物图片,利用之前爬取的人物名字给对应图片命名并保存。
i = 0 for link in result: filename = 'douban\' + str(result3[i])+ '.jpg' i += 1 with open(filename, 'w') as file: urllib.request.urlretrieve(link, filename)

完整代码贴出来,需要的同学可以试试。
import urllib.request import os import re url = 'https://movie.douban.com/subject/26260853/celebrities' r = urllib.request.urlopen(url) html = r.read().decode('utf-8') result = re.findall(r'https://img\d.doubanio.com/img/celebrity/medium/.*.jpg', html) result2 = re.findall(r'(?<=title=").\S+', html) result2.pop() result3 = sorted(set(result2), key=result2.index) result3.pop(-3) if not os.path.exists('douban'): os.makedirs('douban') i = 0 for link in result: filename = 'douban\\' + str(result3[i]) + '.jpg' i += 1 with open(filename, 'w') as file: urllib.request.urlretrieve(link, filename)

五、总结

最后效果,图片都下载在我刚才指定的文件夹中了。


Paste_Image.png

第一次写文章,对很多东西不是很熟悉,如果有任何问题,请多多指教。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 195,242评论 5 461
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 82,138评论 2 372
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 142,412评论 0 323
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,380评论 1 266
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,221评论 4 357
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,203评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,607评论 3 384
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,292评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,581评论 1 292
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,650评论 2 311
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,405评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,268评论 3 313
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,646评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,942评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,226评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,601评论 2 342
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,795评论 2 335

推荐阅读更多精彩内容