「爬虫」17当当网书籍信息爬虫及结果写入数据库

1.项目需求：将当当网程序设计类（）书籍的商品名、商品链接以及评价数爬取后保存到mysql数据库中。

当当网程序设计类书籍

2.项目实施步骤

（1）创建爬虫项目和文件。

scrapy startproject dangdang

scrapy genspider -t basic dd dangdang.com

（2）编写items.py文件。

dangdang/items.py

（3）编写dd.py文件。

dangdang/Spiders/dd.py

（4）数据处理准备：若本机已准备好mysql数据库，直接对数据库进行操作；若没有，则进行安装。

cmd安装pymysql的命令：

pip install pymysql

cmd进入mysql的命令：

cmd运行mysql.exe

建立dangdang数据库：

create database dangdang;

切换数据库：

use dangdang;

库中建立存储爬取结果的book表：

create table book(title char(100) primary key,link char(100) unique,comment char(20));

【注】①在mysql/bin文件中直接运行mysql.exe文件可能出现闪退的情况，处理的一种方法就是在shell中先进入mysql/bin，再利用命令mysql.exe -u root -p进入mysql的shell。

②mysql shell常使用的sql命令有：

show databases；

create database 数据库名；

use 数据库名；

create table 表名(字段名1 字段类型属性,字段名1 字段类型属性,...)；

select * from 表名；

insert into 表名（字段1，字段2，...）values（“值1”，“值2”，...）；

③在mysql的shell中输入命令，一定要以；为结束标识符。

（5）编写pipelines.py文件（写入数据库）。