最近有些图片爬取的需求,相信很多做CV的也需要,记录一下自己遇到的坑。
1. 安装
两种方法
(1)pip 安装, 如果爬取100张一下建议选用
pip install google_image_download
(2)源码安装
git clone https://github.com/hardikvasa/google-images-download.git
进入目录下运行google-images-download即可(当然前提是运行环境能上google),案例如下:
#爬取google图片搜索的cat下100张图片
python google-images-download.py -k "cat" -l 100
分别爬取多个关键词的图片20张并存储在制定目录
python google-images-download.py --keywords "Polar bears, baloons, Beaches" --limit 20 -o "/usr/bin/.."
但是爬取100张以上的图片会报错。。
2.解决100张一下报错的问题:
安装chromedriver ,记得对应版本号与chrome一致。chromedriver官方地址
vim google_images_download/google_images_download.py
//在第165行插入:
options.add_argument('--proxy-server=socks5://localhost:1080') #你的proxy
然后再爬取就easy了。
googleimagesdownload -k "Sexy" -l 2000 --chromedriver="./chromedriver"
参考文献: