之前的学习中,已经可以爬取一些自己需要的信息,但是这些信息怎样呈现出来,方便自己快速的查询和统计呢?这就需要用到数据存储,在爬虫课程中,老师用到了MongoDB,MongoDB是什么呢?简单来说,MongoDB就是一个简单易用的数据库存储软件,可以把MongoDB类比为Office软件中的Access。在我平时的工作中也经常会接触到数据库,因此相对来说并不陌生,如果没接触过数据库也没关系,就把MongoDB理解成Excel好啦。
1、下载安装
直接进入MongoDB的官网进行下载,https://www.mongodb.com/download-center?jmp=nav#community,选择Community Server中适合自己计算机操作系统的版本进行下载安装。
在安装的过程中一定要注意一点,修改一下默认的安装路径,确保安装路径中没有空格存在。我安装默认的路径为C:\Program Files\MongoDB\Server\3.4,因为Program Files中含有一个空格,会在后面的启动过程中提示错误,这是一个坑,一定要跳过去。因此我将路径修改为C:\MongoDB\Server\3.4,之后按步骤完成安装。
2、启动服务
下载完成之后点击安装。之后就可以开始启动MongoDB服务啦。步骤如下:
①新建数据库存储文件
为了方便管理,我直接在MongoDB的安装目录下,新建文件夹【data】,进入【data】文件夹,再新建文件夹【db】,这表示将数据库存储在这个文件夹之下。
新建文件夹后如下:
②在C:\MongoDB\Server\3.4\bin目录下,按住shift键右键点击鼠标,启动命令窗口;
③命令窗口中输入mongod --dbpath XXX,其中XXX为刚才新建文件夹的路径。进入刚才新建的文件夹中,将路径复制,之后在命令窗口中将路径复制。(PS:在命令行中的复制并不是我们熟悉的CTRL+V,而是直接点击右键。)
④运行命令程序,之后得到如下结果:
在浏览器中输入localhost:27017,可以验证是否安装成功。
3、连接MongoDB
不要关闭刚才的命令窗口,重新在【C:\MongoDB\Server\3.4\bin】路径中,shift+鼠标右键打开新的命令行窗口,输入mongo,若出现下图所示,则表明连接成功。
4.为系统配置MongoDB服务
如果要使用MongoDB每次都得完成以上操作,那是否有更方便的方法呢?有的,那就是为windows系统配置MongoDB服务。
①建立日志文件:在【C:\MongoDB\Server\3.4\data】目录下新建文件夹,取名为log,在log文件夹中新建一个txt文件,将txt文件命名为mongod,txt后缀名修改为log。以后所有MongoDB运行的日志记录都将记录于此。
②建立配置文件:在【C:\MongoDB\Server\3.4】目录下新建一个txt文件,重命名为mongod,txt后缀名修改为cfg。用记事本打开此文件,并在里面输入如下内容:
systemLog:
destination: file #destination前面有四个空格,冒号后面有一个空格
path: C:\MongoDB\Server\3.4\data\log\mongod.log #path前面有四个空格,冒号后面有一个空格,之后输入mongob.log的路径
storage:
dbPath: C:\MongoDB\Server\3.4\data\db #dbPath前面有四个空格,冒号后面有一个空格,之后输入db文件夹的路径
最终在mongod.cfg中输入的内容如下:
③命令窗口启动服务
在【C:\MongoDB\Server\3.4\bin】路径中,shift+鼠标右键打开新的命令窗口,输入mongod --config C:\MongoDB\Server\3.4\mongod.cfg --directoryperdb --serviceName MongoDB --install。出现如下说明,则表示启动成功。
mongod --config C:\MongoDB\Server\3.4\mongod.cfg --serviceName MongoDB1 --install
为了保险期间,还是去计算机管理中查看以下服务是否启动。win+R键进入运行,输入compmgmt.msc后,便可进入计算机管理查看,结果并没有发现,造成这一问题的原因是,没有通过管理员身份运行。
鼠标在windows图标上右击,选择命令提示符(管理员)。
之后通过cd命令,找到安装MongoDB的目录,运行以上命令。
之后再进入计算机管理中进行查看,便会发现刚才创建的MongoDB服务。
进入服务后直接启动服务,之后就会开机自启动,而无需完成之前的手动启动。但是有时候还会遇到如下问题:
解决办法如下:
①删除C:\MongoDB\Server\3.4\data\db\mongod.lock文件
②删除服务
mongod --logpath C:\MongoDB\Server\3.4\data\log\mongod.log --logappend --dbpath C:\MongoDB\Server\3.4\data\db --serviceName "MongoDB" --serviceDisplayName "MongoDB" --remove
③按照之前的方法重新安装服务,不过必须去除--directoryperdb 命令,在命令窗口中输入:
mongod --config C:\MongoDB\Server\3.4\mongod.cfg --serviceName MongoDB --install
5、在Pycharm中安装Mongo Plugin
①打开Pycharm,在菜单中选择:File > Setting;
②在Settings窗口中,找到Plugins,并点击下方Browse repositories
③在Browse Repositories中搜索Mongo Plugin并安装;
④重启Pycharm在右侧找到Mongo Explorer,点击像扳手的图标进行设置;
⑤在设置页面中,点击右侧加号键,在弹出的Add a mongo service窗口label栏中,随意取名。
6、安装Pymongo第三方库
安装第三方库的方法在第1次笔记中已经介绍过,此次就略去不说了。
总结:
1.安装MongoDB是为了存储爬取的数据,方便对数据进行统计和分析;
2.准备工作一共有3点,一是安装MongoDB并启动服务;二是安装Pycharm Mongo Plugin;三是安装Pymongo第三方库;
3.几个坑需要注意:一是在安装MongoDB的过程中,选择路径时不能包含空格;二是在系统配置MongoDB服务时,一定要用管理员身份启动命令窗口。