2000-2020年中国村(居)委会及其以上区划代码和数据
背景
要求分析2000年到2020年,中国城乡区划的空间变化,查阅到开源数据有国家统计局统计用区划和城乡划分代码数据。
方法
步骤一:配置环境
python环境配置
网上教程太多,安装anaconda就好,只需要把路径添加到系统环境变量中
redis数据库的配置
由于需要爬取数据量比较大,我是用的是scrapy-redis框架,分布式爬取,所以用到redis数据库,具体方法请参考我的知乎文章linux 安装配置redis - 知乎 (zhihu.com)以及这个win10 部署scrapy-redis - 知乎 (zhihu.com)
配置一个虚拟环境(选做)
这部分不是必须的,但是我个人习惯做爬虫类,我就用一个爬虫类的虚拟环境进行
步骤二:编写核心代码
编写scrapy爬虫代码,使用这个框架,你不用再浪费心思去思考异步等问题,只需要专心写你提取的规则就好。
步骤三
启动项目,静静等待数据采集
步骤四:从存储数据中提取数据
最终爬取完之后,数据都存在redis数据库中,可以使用redis-dump工具,进行数据的迁移。
结果
代码已开源,请参考https://gitee.com/bahapku/china_area_code
数据已经整理好,有需要请邮件联系bahapku@foxmail.com告知具体诉求,拒绝商业化利用!!!
声明
拒绝恶意爬取,拒绝商业化利用,非本人允许,禁止转载。