pyspider 爬取 去哪网 游记内容 图片

昨天学习了pyspider的使用
《Python 3 网络爬虫开发实战》中介绍了使用pyspider爬取去哪的游记内容
然后在书中所介绍的案例的基础上,今天自己又进行了修改完善,实现了游记内容的爬取保存,已经驴友们拍摄的美图的保存。

代码如下

#!/usr/bin/env python
# -*- encoding: utf-8 -*-
# Created on 2019-08-28 14:52:57
# Project: quna

from pyspider.libs.base_handler import *
import os

DIR_PATH = '/Users/********/Desktop/去哪游记' #本地存放路径
 
 
class Handler(BaseHandler):
    crawl_config = {
    }
    
    def __init__(self):
        self.deal = Deal() #初始化文件处理对象
        
    @every(minutes=24 * 60)
    def on_start(self):
        self.crawl('http://travel.qunar.com/travelbook/list.htm', callback=self.index_page) #请求主页
    
    @config(age=10 * 24 * 60 * 60)
    def index_page(self, response):
        for each in response.doc('li > .tit > a').items():
            self.crawl(each.attr.href, callback=self.detail_page, fetch_type='js')
        next = response.doc('.next').attr.href
        self.crawl(next, callback=self.index_page) #请求详情
    
    @config(priority=2)
    def detail_page(self, response):
        images = response.doc('.js_lazyimg').items() #根据返回的网页源码来进行处理,得到所有img标签数据
        name = response.doc('#booktitle').text() #获取游记title
        dir_path = self.deal.mkDir(name) #在文件目录下生成游记文件夹
        if dir_path:
            content = response.doc('#b_panel_schedule').text()#获取游记内容
            self.deal.saveContent(content, dir_path, name)#保存游记内容在游记文件夹下,txt格式
            for img in images: 
                src = img.attr.src #获取img src
                if src:
                    file_name = self.deal.getFileName(src) #获取文件名
                    self.crawl(src, callback=self.save_img, validate_cert = False,
                               save={'dir_path': dir_path, 'file_name': file_name})#请求图片
 
    def save_img(self, response):
        content = response.content
        dir_path = response.save['dir_path']
        file_name = response.save['file_name']
        file_path = dir_path + '/' + file_name
        self.deal.saveImg(content, file_path)
        return file_path
 
class Deal:
    def __init__(self):
        self.path = DIR_PATH
        if not self.path.endswith('/'):
            self.path = self.path + '/'
        if not os.path.exists(self.path):
            os.makedirs(self.path)
 
    def mkDir(self, path):
        path = path.strip()
        dir_path = self.path + path
        exists = os.path.exists(dir_path)
        if not exists:
            os.makedirs(dir_path)
            return dir_path
        else:
            return dir_path
 
    def saveImg(self, content, path):
        f = open(path, 'wb')
        f.write(content)
        f.close()
 
    def saveContent(self, content, dir_path, name):
        file_name = dir_path + "/" + name + ".txt"
        f = open(file_name, "w+")
        f.write(content)
 
    def getFileName(self, url):
        (url, tempfilename) = os.path.split(url)
        return tempfilename

启动爬虫

image.png

爬虫开始工作

image.png

经过早上一个多小时的折腾,可以正常使用了
不过对于pyspider也有了新的认识,这家伙调试太难、编码不舒服(只能VS中写完复制过去才能好受点)
个人感觉pyspider简单,易操作,适合去爬一些急、数据量不大又不复杂的情况
今天学习Scrapy,完事之后再做对比

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 197,597评论 5 462
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,053评论 2 375
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 144,583评论 0 326
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,888评论 1 267
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,772评论 5 358
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,536评论 1 275
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,922评论 3 388
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,554评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,838评论 1 293
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,861评论 2 314
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,677评论 1 328
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,483评论 3 316
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,928评论 3 300
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,104评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,403评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,945评论 2 343
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,156评论 2 339

推荐阅读更多精彩内容

  • 爬虫文章 in 简书程序员专题: like:128 - Python 爬取落网音乐 like:127 - 【图文详...
    treelake阅读 29,516评论 33 638
  • 前言 pyspider是支持WebUI的,支持任务监控,项目管理,以及多种数据库的一个强大的爬虫框架,这个真的很好...
    Wangthirteen阅读 57,796评论 -1 22
  • 一、为什么要使用pyspider? 我们很好奇,我们明明有了Scrapy框架,为什么还要使用pyspider框架呢...
    田小田txt阅读 1,116评论 0 0
  • 河边的苹果,一个资历高深的老和尚有很多弟子。有一天啊,老和尚同弟子们说,徒弟们,去前边的山上拾些柴火回来吧。一众的...
    赵彬清阅读 427评论 0 0
  • 惊蛰 春雷始动 枝芽萌出 虫豸苏醒 万物从容~~ 农家的春耕 耙出黑土如墨 老牛半睡半醒 跌坐埂头--慵懒 从容~...
    三叶草yia阅读 315评论 0 4