本次信息采集的起始网址为:http://ggglxy.scu.edu.cn/index.php?c=article&a=type&tid=18, 并利用scrapy进行采集
采集过程:(起始)
由于之前已经尝试了采集数据,相关包的安装过程以及虚拟环境的搭建就不再一一赘述了。
1、创建采集项目
切换到venv目录下,执行命令scrapy startproject teacher,则可创建teacher的项目
2、编写和执行爬虫,并保存为xml
本次采集涉及到翻页和获取详情页内容两个方面,因此本次爬虫的编写也分两个部分来写,最后进行整合。首先是获取详情页的内容,再是翻页。
2.1 获取详情内容
执行结果如下:
保存为xml:
在这个过程中遇到的问题就是没办法把详情页的内容和对应的人物信息关联起来,无法出现在一个共同的标签下面,尝试过将获取详情页的网址放在上面yield的大括号里面,结果出现报错。
2.2翻页
执行结果如下:
保存为xml:
因为翻页有很多url,目前还没有学会如何识别这些网址的方法。本次抓取的思路是利用循环的方式,因此是想要采集下一页的url,而在翻页的网址列表中不仅有多个网址,而且每个页面都至少有两个相同的网址,那就是下一页与前面具体的某一页。在观察<html>代码时发现,下一页的url所在的
<li>
标签的style的width属性是与其他不同的,因此考虑到将这个限制条件加到爬虫的代码中。本以为可以抓到所有的数据,但是当循环到第3页的时候,网页中出现了上一页,而这个的width属性是与下一页的相同,因此由直接进入了第一页,循环结束。因此本次采集仅仅采集到了24条数据,其中第一页的8条数据出现了两次。
2.3整合
3修改及完善
经历前几次的尝试以及后面的学习,对爬虫进行修改,获取比较完整的信息。
3.1对象分析
本次采集内容列表页共16页,每页8位老师,每位老师对应有一个详情页。列表页需采集5个字段包括姓名(name)、职称(position)、系别(department)、联系方式(email)、详情页链接(link),详情页采集5个字段,包括老师简介(intro)、研究成果(output)、获奖情况(award)、科研项目(project)、人才培养(training)
元数据字段 | html | xpath |
---|---|---|
name | <h3 class="mb10">董欢</h3> | //li[@class="fl"]/div[@class="r fr"]/h3/text() |
position | <p class="color_main f14">讲师</p> | //li[@class="fl"]/ div[@class="r fr"]/p/text() |
department | <p> 土地资源与房地产管理系 </p> | //li[@class="fl"]/div[@class="r fr"]/div[@class="desc"]/p[1]/text() |
<p> E-mail:dhuan8844@126.com </p> | //li[@class="fl"]/div[@class="r fr"]/div[@class="desc"]/p[2]/text() | |
link | <a href="index.php?c=article&id=7" target="_blank">[图片上传失败...(image-9c5868-1534753409166)]</a> | //li[@class="fl"]/div[@class="l fl"]/a/@href |
intro | <div class="desc">管理学博士...... </div> | //div[@class="r fr"]/div[@class="desc"]/text() |
output | <div class="detailbox mt20" style="">...</div> | //div[@class="detailbox mt20"][1]//text() |
award | <div class="detailbox mt20" style="">...</div> | //div[@class="detailbox mt20"][2]//text() |
project | <div class="detailbox mt20" style="">...</div> | //div[@class="detailbox mt20"][3]//text() |
training | <div class="detailbox mt20" style="">...</div> | //div[@class="detailbox mt20"][4]//text() |
3.2采集策略
利用xpath,首先采集列表页基本信息的5个字段,通过详情页链接进入详情页进行具体内容(包括5个字段)的采集,其中通过meta方法进行数据的传递。通过分析网页<html>结构,翻页则通过页码链接列表中当前页的兄弟节点的下一个节点来找到下一页的链接, 再通过response.urljoin()方法形成绝对链接。
3.3scrapy项目
创建虚拟环境、采集项目等过程这里就不详细说明了。
3.3.1定义items.py
# -*- coding: utf-8 -*-
import scrapy
class LaoshiItem(scrapy.Item):
# define the fields for your item here like:
name = scrapy.Field()
position = scrapy.Field()
department = scrapy.Field()
email = scrapy.Field()
link = scrapy.Field()
intro = scrapy.Field()
output = scrapy.Field()
award = scrapy.Field()
project = scrapy.Field()
training = scrapy.Field()
3.3.2编写抓取老师信息爬虫lsinfo.py
import scrapy
from laoshi.items import LaoshiItem
class TeacherSpider(scrapy.Spider):
name = "lsinfo"
start_urls = [
'http://ggglxy.scu.edu.cn/index.php?c=article&a=type&tid=18',
]
def parse(self, response):
for teacher in response.xpath('//li[@class="fl"]'):
item = LaoshiItem()
name = teacher.xpath('div[@class="r fr"]/h3/text()').extract_first()
position = teacher.xpath('div[@class="r fr"]/p/text()').extract_first()
department = teacher.xpath('div[@class="r fr"]/div[@class="desc"]/p[1]/text()').extract_first()
email = teacher.xpath('div[@class="r fr"]/div[@class="desc"]/p[2]/text()').extract_first()
link = teacher.xpath('div[@class="l fl"]/a/@href').extract_first()
item['name'] = name
item['position'] = position
item['department'] = department
item['email'] = email
yield scrapy.Request(response.urljoin(link), callback=self.parse_detail, meta={ 'item': item })
next_page = response.xpath('//div[@class="pager cf tc pt10 pb10 mobile_dn"]/li[@class="c"]/following-sibling::*[1]/a/@href').extract_first()
if next_page is not None:
next_page = response.urljoin(next_page)
yield scrapy.Request(next_page, callback=self.parse)
def parse_detail(self, response):
item = response.meta['item']
item['intro'] = response.xpath('//div[@class="r fr"]/div[@class="desc"]/text()').extract()
item['output'] = "".join(response.xpath('//div[@class="detailbox mt20"][1]//text()').extract())
item['award'] = "".join(response.xpath('//div[@class="detailbox mt20"][2]//text()').extract())
item['project'] = "".join(response.xpath('//div[@class="detailbox mt20"][3]//text()').extract())
item['training'] = "".join(response.xpath('//div[@class="detailbox mt20"][4]//text()').extract())
yield item
其中,翻页使用的是:/li[@class="c"]/following-sibling::[1],因为网页结构为下一页的url在当前页节点的下一个节点。
列表信息与详情页信息对接,采用的方法是在scrapy.Request中使用meta参数传递,即meta={ 'item': item },在回滚的函数中使用item = response.meta['item']*
note:需要注意的是,获取详情页的url字段应该与其他字段在一个循环中,以避免抓取重复数据
3.3抓取结果