之前想试着爬取微博上一个人的微博相册里面的图片。
在“相册”页面,是不会一下子展示出所有的图片的,需要手动下拉到最下方才会加载日期更早的图片。
每次在加载更早的日期的时候,会传一个sinceId的参数,如果了解这个参数生成的规则,似乎爬起来就比较简单了,但是没有想到。
后来不小心点到了保存网页,下载的过程时间还不短,于是点开了下载的网页看了下,可以看到是有图片的。
点开保存的网页的文件夹,可以看到里面是将所有图片的缩略图下载了下来,其中就包含所有的微博相册图片。
于是就获得了相册中所有原图的文件名字,将这些图片全部读入内存后(缩略图很小),再根据文件名字去请求对应的原图就好了。