最牛大佬教你快速用Python 脚本批量下载 Google 图像?

有好多明星的脸,分不清,怎么办?小编用python教你,如何看脸。


1.png

分不清谭卓和郝蕾?来一达,各来200张照片,让深度学习帮我们识别吧。

问题

《如何用Python和深度神经网络识别图像?》一文中,我给你展示了如何用深度学习,教电脑区分机器人瓦力和哆啦a梦。

很快就有用户在后台留言,问:

老师,我想自己训练一个图片分类器,到哪里去批量下载带标注的训练图像呢?

说说我写教程的时候,是如何找图片的吧。

最大的图片库,当然就是 Google 了。

在 Google 图像栏目下,键入"Walle"。

需要更多python学习资料和好玩的程序加小编的QQ群 827502865**


2.jpeg

怎么样?搜索结果很符合需求吧。

你不但找到了一批高质量图片,而且它们的标注, Google 都帮你打好了。

下面一步,自然就是把这些图片下载下来了。

我让学生实际动手做,每个人找两个与别人不同的图像集合,尝试根据教程做深度学习分类。

我提供给他们的方案(几款不同的 Chrome 浏览器插件),效果都不好。

有的才下了几张,就停工,甚至把浏览器整崩溃了。

有的下载图片,都是重复的。

学生告诉我,经验证,最简单有效的方法,是一张张手动点击下载……

这显然不是正经办法。

痛点

渴望从 Google 图片库高效批量获得优质带标注图像,不会是个案。

这个大众痛点,真的没有人尝试解决吗?

今天,一个偶然的机会,我发现了一个特别棒的 Github 项目,叫做 google-images-download。

3.jpeg

Github repo 链接在这里。

项目发布至今,只有短短5个月的时间,星标数量居然已经上了2000,看来确实非常受欢迎。

google-images-download 是个 Python 脚本。

使用它,你可以一条命令,就完成 Google 图片搜索和批量下载功能。

而且,这工具还跨平台运行,Linux, Windows 和 macOS 都支持。

简直是懒人福音。

安装

google-images-download 安装很简单。

以 macOS 为例,只需要在终端下,执行以下命令:
pip install google_images_download

安装就算完成了。

当然,这需要你系统里已经安装了 Python 环境。

如果你还没有安装,或者对终端操作命令不太熟悉,可以参考我的《如何安装Python运行环境Anaconda?(视频教程)》一文,学习如何下载安装 Anaconda ,和进行终端命令行操作。

尝试

进入下载目录:
cd ~/Downloads


4.jpeg

我们尝试下载一些图片。

《我不是药神》里面有个叫谭卓的女演员,演的不错。可是我一开始,把她当成郝蕾了。

咱们尝试下载一些谭卓的图片吧。

终端里面执行:
googleimagesdownload -k “谭卓” -l 20

解释一下,这里的 -k 指的是 “keyword”,也就是“关键词”,后面用双引号括起来要查找的关键词。

你可以看出,使用中文关键词,也没问题。

后面的 -l ,指的是"limit",也就是图片数量限定,你需要指定自己要下载多少张图像。

本例中,我们要20张。

下面是执行过程:

![6.jpeg](https://upload-images.jianshu.io/upload_images/15162496-8e52908af6adb9df.jpeg?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)

执行完毕。

可以看到,下载过程中,发生了一个错误。

但程序依然锲而不舍,帮我们把下载流程运行完毕。

我们看看结果。

下载的图片都存放在 ~/Downloads/downloads/谭卓 下面,google-images-download 非常贴心地,为我们建立子目录。

我们在 Finder 里打开看看:

看了半天,有的照片,还是跟郝蕾分不大清楚。

为了彻底分清两位女演员,我们再下载 200 张郝蕾的照片吧。

仿照刚才的命令,我们执行:
googleimagesdownload -k “郝蕾” -l 200

然后……就报错了:

解决

遇到问题,不要慌。

你得认真看看错误提示。

注意其中出现了一个关键词:chromedriver。

这是个什么东西呢?

我们回到 google-images-download 的 github 页面,以 chromedriver 为关键词进行检索。

你会立即找到如下结果:


7.jpeg

原来如果你要的图片数量超过100张,那么程序就必须调用 Selenium 和 chromedriver 才行。

Selenium 在你安装 google-images-download 的时候,已经自动安装好了。

你只需要下载 chromedriver ,并且指定路径。

下载链接在这里。

7.1.jpeg

请根据你的操作系统类型,选择合适的版本:


8.jpeg

我选的是 macOS 版本。

下载后,压缩包里面只有一个文件,把它解压,放在 ~/Downloads 目录下。


9.jpeg

然后,执行:
googleimagesdownload -k “郝蕾” -l 200 --chromedriver="./chromedriver"

这里 --chromedriver 参数,用来告诉 google-images-download ,解压后 chromedriver 所在路径。

这回机器勤勤恳恳,帮我们下载郝蕾的照片了。

10.jpeg

200张图片,需要下载一会儿。请耐心等待。


11.jpeg

下完了。

中间也有一些报错,部分图片没有正确下载。

好在,这对总体结果没有太大影响。

为了保险起见,建议你设置下载数量时,多设置一些。

给自己留出安全边际嘛。

咱们打开下载后的目录 ~/Downloads/downloads/郝蕾 看看:

12.jpeg

这回,你能分清楚她俩不?

需要更多python学习资料和好玩的程序加小编的QQ群 827502865

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 211,265评论 6 490
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,078评论 2 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 156,852评论 0 347
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,408评论 1 283
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,445评论 5 384
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,772评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,921评论 3 406
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,688评论 0 266
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,130评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,467评论 2 325
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,617评论 1 340
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,276评论 4 329
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,882评论 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,740评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,967评论 1 265
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,315评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,486评论 2 348

推荐阅读更多精彩内容

  • 分不清谭卓和郝蕾?各来200张照片,让深度学习帮我们识别吧。 问题 《如何用Python和深度神经网络识别图像?》...
    王树义阅读 3,269评论 9 91
  • 不知从所起,不知何所终。 我要毕业了。 还有不到一个月的时间,我要离开学校和姐姐两个人生活...
    婉宛wy阅读 128评论 0 0
  • 回上一篇评论区,看到各位的建议和安慰我很感动,也有所启发,由于个人原因觉得统一回复比较好。 那篇文章是我中午写的,...
    healer666阅读 216评论 1 0
  • 2016年07月08日周五雨转晴 “起来,不愿做奴隶的人们,把我们的血肉……”只听国歌在我耳边响起,今天我就简略的...
    侦探迷阅读 183评论 0 0