从0搭建区块链资讯网站(6-4)pipelines并入库

上一节已经将爬虫,items编写完成, 本节我们将完成pipelines的编写,以及入库的操作,如下是详细步骤:

1. 首先新建一个mysqlpipelines的包,然后新建两个文件,一个是我们的pipelines,一个是sql的模块,如下

新建模块

2. 在setting 文件里面,编写我们的pipilines的引用:

settings

3. Settigns 编写mysql的基本配置

mysql

4.  完成后,我们来编写SQL中的两个方法,一个是插入数据库的方法,一个是查看数据库中是否已经有这条记录的方法

# -*- coding: utf-8 -*-

import pymysql.cursors

import traceback

from ArticleSpider import settings

MYSQL_HOSTS = settings.MYSQL_HOSTS

MYSQL_USER = settings.MYSQL_USER       

MYSQL_PASSWORD = settings.MYSQL_PASSWORD

MYSQL_ROOT = settings.MYSQL_ROOT

MYSQL_DB = settings.MYSQL_DB

#数据库连接

cnx = pymysql.Connect(user=MYSQL_USER, password = MYSQL_PASSWORD, host = MYSQL_HOSTS, database = MYSQL_DB, charset='utf8')

cur = cnx.cursor()

class Sql:


    #插入数据库

    @classmethod

    def insert_artical(cls,xs_title,xs_a_url, xs_image, xs_publish_time,xs_content, xs_desc,xs_source):


        sql = "INSERT INTO articals (title,url,image,publish_time,content,describ,source) values (%s,%s,%s,%s,%s,%s,%s)"

        value =(xs_title,xs_a_url, xs_image, xs_publish_time,xs_content, xs_desc,xs_source)

        try:

            cur.execute(sql , value)

            cnx.commit()

        except Exception as e:

            cnx.rollback()

            print('事务处理失败', e)

            traceback.print_exc()


    #查看是否已经有这条记录的方法       

    @classmethod

    def checkin_url(cls, xs_a_url):

        sql = "select url from articals where url = (%s)"

        cur.execute(sql, xs_a_url)

        results = cur.fetchall()

        cnx.commit()

        return results


5. 然后在pipelines中,调用这个方法,将items中的数据插入数据库

'''

Created on 2018年7月16日

@author: wenye.sun

'''

from ArticleSpider.items import ScrapyArticleItem

from .sql import Sql

class BitPipline(object):

    def process_item(self,item,spider):

        if spider.name == 'jianwen':

            if isinstance(item, ScrapyArticleItem):

                xs_title = item['title'],

                xs_a_url = item['a_url'],

                xs_image = item['image'],

                xs_publish_time = item['publish_time'],

                xs_content = item['content'],

                xs_desc = item['desc'],

                xs_source = item['source'],

                #查看是否已经存在了             

                check_result = Sql.checkin_url(xs_a_url)

                lens = len(check_result)

                if(lens != 0):

                    print('已经存在')           

                else:

                    #不存在则插入到库中

                    Sql.insert_artical(xs_title,xs_a_url, xs_image, xs_publish_time,xs_content, xs_desc,xs_source)

                    print('插入成功')   


6. 接下来就是创建数据库的操作了,如下是创建数据库表的操作:

首先用root用户登录数据库: mysql -u root -p

登录后,创建一个用户,并指定密码:CREATE USER 'username'@'%' IDENTIFIED BY 'password';  把username和password这里替换为你自己的用户名和密码即可

然后将所有权限赋予这个用户:

GRANT ALL ON *.* TO 'username'@'%'; 

flush privileges;

然后创建一个新的数据库:CREATE DATABASE wechat;

这时候用show databases; 就可以看到我们刚刚创建的数据库了

使用 use wechat; 切换到我们新创建的数据库中

然后使用下面语句创建我们的数据库表格

create table articals( id int(255) NOT NULL AUTO_INCREMENT , title VARCHAR(255), url VARCHAR(255) ,

  image VARCHAR(255),

  publish_time VARCHAR(255),

  content BLOB(0),

source VARCHAR(255),

describ VARCHAR(255),

visable INT(255),

    PRIMARY KEY ( id ));

创建数据库成功以后,使用show tables; 可以查看刚刚创建的数据库。


最后我们写一个测试的入口函数,来调用对应的爬虫,entry.py:

'''

Created on 2018年7月19日

@author: wenye.sun

'''

# -*- coding: utf-8 -*-

import os

os.system('scrapy crawl jianwen')

执行后,我们将看到执行的结果如下:


插入成功

同时数据库中也有了我们抓取来的20条数据

数据结果

我们从新抓取一遍,也可以看到数据库并未重复抓取

已存在

如下是我们整个项目的目录结构:

目录

后续可以在spiders里面去扩展我们想要抓取的网址,并优化spider文件。

接下来就是将我们整个项目打包放到服务器上去,在服务器上需要做的事情如下:

1. 同样的操作创建数据库

2. 将代码放在服务器上运行抓取入库

3. 至此我们的数据准备工作已经完成

接下来将要做网站部分的内容,当然目前爬虫的第一版本非常粗糙,还有很多要改进的点,包括:

1. Linux上的每日自动执行

2. 爬虫内容去重

3. 图片本地保存

4. 更多的字段填充

以上内容将在后续慢慢优化更新。



最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,884评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,755评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,369评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,799评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,910评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,096评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,159评论 3 411
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,917评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,360评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,673评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,814评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,509评论 4 334
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,156评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,882评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,123评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,641评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,728评论 2 351

推荐阅读更多精彩内容