五、scrapy中的item功能

非结构的数据源提取成结构性的数据,把乱七八糟的网页定义成自己的结构。我们可以将这些字段,分别放入我们的字典中来。通过字典返回给scapy。Item类似于字典,比字典更齐全些。

scrapy发现是item时候会把item路由到pipeline中去,可以在pipeline中集中处理数据的保存和去重。这就是item带给我们的好处。

Item只有field类型,代表任何传递进来的东西都可以。图片,文字,元组......都可以。

1、胡子眉毛一起抓,a标签下网页的url和图片的url一起抓取下来。




把pipeline给注释掉的打开

values是自己解析出来的value值

pipeline中记得打断点,进行测试。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • scrapy学习笔记(有示例版) 我的博客 scrapy学习笔记1.使用scrapy1.1创建工程1.2创建爬虫模...
    陈思煜阅读 12,780评论 4 46
  • scrapy是python最有名的爬虫框架之一,可以很方便的进行web抓取,并且提供了很强的定制型,这里记录简单学...
    bomo阅读 2,166评论 1 11
  • Scrapy介绍 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信...
    JasonDing阅读 122,557评论 15 126
  • “人一生有三成时间是在枕头上度过的,枕头是人的魂之居所。” 在《虫师》枕边小径一集中,有一种叫梦野间的虫,生长在人...
    亢樱青阅读 835评论 2 2
  • 1.感恩孩子们都很健康,让我很安心。谢谢你!谢谢你!谢谢你! 2.感恩妈妈对我爱和支持,这两天来饭来张口,妈妈还总...
    莞尔的人生阅读 315评论 0 4