scrapy爬取贝壳房屋信息兰州,并进行数据分析
1.创建工程
2.在spiders下新建文件兰州.py写入以下代码
3.在items文件下创建以下字段名
4.在pipeline文件在写入保存数据的代码
5.效果展示:
6.相关代码展示:
保存数据为excel文件
class ExcelPipeline(object):
def __init__(self):
self.wb= Workbook()
self.ws= self.wb.active
self.ws.append(['小区名称','楼层','层数','类型','面积'])
self.file_name= "host.xlsx"
def process_item(self,item,spider):
line= [item['title'],item['louceng'],item['he'],item['typ'],item['size']]# 把数据中每一项整理出来
self.ws.append(line)# 将数据以行的形式添加到xlsx中
self.wb.save('home.xlsx')# 保存xlsx文件
return item
def close_spider(self,spider):
# 关闭
self.wb.close()