scrapy学习

1,建立工程

打开cmd,输入:

scrapy startproject python123demo

其中,spyderdemo是项目名称。
而后,工程生成一个目录,名为python123demo,该目录下有两个文件:一个文件夹名为python123demo,一个文件名为:scrapy.cfg。其中scrapy.cfg为部署Scrapy爬虫的配置文件。即将该爬虫放在特定服务器上,并在服务器上配置好接口。本机使用时,无需修改此文件。

  • python123demo
    • python123demo
      - _init_.py
      - items.py
      - middlewares.py
      - pipelines.py
      - settings.py
      • spiders
        - _init_ .py
        - peache目录
    • scrapy.cfg

其中
init .py →初始化脚本,不需要编写
items .py→Items代码模板(继承类),几乎不需要编写
middlewares.py → Middlewares代码模板(继承类) 有时需要编写
pipelines. py →Pipelines代码模板(继承类)
settings. py → Scrap爬虫的配置文件。优化爬虫功能时需要修改
spiders目录,→ Spiders代码模板目录(继承类) ,存放python123demo这个工程中建立的爬虫

  • spiders/ Spiders代码模板目录(继承类)
    - init .py 初始文件,无需修改
    - peache 缓存目录,无需修改

2,建立爬虫

继续在cmd工程目录下输入:

scrapy genspider demo python123.io

作用:生成一个名为demo的爬虫

3,配置该爬虫

具体而言,就是修改demo.py这个文件如下:

import scrapy

class DemoSpider(scrapy.Spider):
    name = 'demo'
    # allowed_domains = ['python123.io']
    start_urls = ['http://python123.io/ws/demo.html']

    def parse(self, response):
        fname = response.url.split('/')[-1]
        with open(fname, 'wb') as f:
            f.write(response.body)
        self.log('Saved file %s.' % fname)

4,运行爬虫,获取网页

打开cmd,在工程目录下执行

scrapy crawl demo
Scrapy爬虫的使用步骤:

1,创建一个工程和Spider模板
2,编写Spider
3,编写ItemPipeline
4,优化配置策略

Scrapy爬虫的数据类型

1,Request类
Request对象表示一个HTTP请求。由Spider生成,由Downloader执行

  • .urI Request对应的请求URL地址
  • .method对应的请求方法, GETHPOST等
  • .headers字典类型风格的请求头
  • .body请求内容主体,字符串类型
  • .meta用户添加的扩展信息,在 Scrap内部模块间传递信息使用
  • .copy复制该请求

2,Response类
Response对象表示一个HTTP相应。由Downloader生成,由Spider处理

  • .urI Response对应的URL地址
  • .status HTTP状态码,默认是200
  • .headers Response对应的头部信息
  • .body Response对应的内容信息,字符串类型
  • .flags组标记
  • .request产生 Response类型对应的 Request对象
  • .copy复制该响应

3,Item类
Item对象表示一个从HTML页面中提取的信息内容。
由 Spider生成,由 Item Pipeline处理。
Item类似字典类型,可以按照字典类型操作。

CSS Selector的基本使用

<HTML>.css('a::attr(href)').extract()
a为标签名称,href为标签属性

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,509评论 6 504
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,806评论 3 394
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 163,875评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,441评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,488评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,365评论 1 302
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,190评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,062评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,500评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,706评论 3 335
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,834评论 1 347
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,559评论 5 345
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,167评论 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,779评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,912评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,958评论 2 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,779评论 2 354