本小节主要介绍Scrapy抓取数据的部分,我们可以选择几个区块链的资讯类网站,然后定向爬取里面的内容做展示,初步选择这么几个网站:
巴比特 : http://www.8btc.com/
区块链见闻: http://www.qkljw.com/
代码编写:
代码编写主要在Windows上完成,最后提交到服务器上部署即可。
1. 在本地新建scrapy项目,我选的是D:\Python\scrapy, 用cmd命令行,切换到这个目录下,输入: scrapy startproject blockchain
2. Scrapy的基本介绍可以百度了解一下,这里我们直接切换到spider路径下面(D:\Python\scrapy\blockchain\blockchain\spiders),去新建抓取的文件,新建一个linkblock.py的文件
这个文件就是我们的爬虫文件,所有对网页的操作,都在这个文件里面实现
打开文件,编写代码,这里的编辑器可以自己选择,我用的Notpad++,这里我们先选择:http://www.8btc.com/ 这个网站进行爬取
首先,我们分析一下这个页面,我们发现主页的内容非常多,而且排序比较多样化,而我们本次的目标是爬取区块链相关的文章,所以我们选择:区块链 -->文章,这个地址,http://www.8btc.com/blockchain,这个地址会找到非常标准的文章列表,而且格式很规则,我们就需要这个地方的文章即可
我用的Chrome浏览器,右键点击文章的标题,选择检查,看一下Elements,可以看到所有的文章都是以非常规整的div标签下
我们从这个页面将可以非常容易的获取到他的标题,描述,图片,作者头像,以及文章的详细链接等信息,那么就可以开始我们的爬虫编写了,如下是代码部分:
写完以后保存,cmd切换路径到spider下,输入:scrapy crawl 8bits
8bits就是爬虫的名字,结果是啥也没获取到,并且返回了none
说明这个网址是做了反爬取策略的,下一节我们将介绍如何反爬取,及设置item,pipeline,setting和最终的入库