scrapy关于.xpath中的normalize-space()的理解

若div为当前节点，使用.xpath('//div//text()').extract()开头或者结尾会有\r\n\t。

使用 .xpath('normalize-space(//div)').extract() 输出结果则是去掉了开头的\r\n\t

但是 .xpath('normalize-space(//div//text())').extract()是获取不到值的

因为text()返回的是节点集，normalize-space()无法标准化。可如果text()返回一个节点的时候，会自动转化为字符串

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

scrapy-选择器(Selectors)
选择器(Selectors) 当抓取网页时，你做的最常见的任务是从HTML源码中提取数据。现有的一些库可以达到这个...
losangele阅读 1,369评论 0赞 0
python爬虫里信息提取的核心方法: Beautifulsoup Xpath 正则表达式
20170531 这几天重新拾起了爬虫，算起来有将近5个月不碰python爬虫了。对照着网上的程序和自己以前写的...
八神苍月阅读 14,257评论 3赞 44
Python爬虫 --- 2.2 Scrapy 选择器的介绍
在使用Scrapy框架之前，我们必须先了解它是如何筛选数据的， Scrapy提取数据有自己的一套机制，被称作选择器...
緣來阅读 540评论 1赞 2
Scrapy框架入门-xpath
如果对xpath语法比较了解，可以只阅读总结部分 scrapy简介异步和非阻塞的区别 scrapy爬虫的流程各...
alfalfaw阅读 378评论 0赞 0
爬虫技术详解（一）- XPath
XPath简介以下摘自维基百科 XPath (XML Path Language) is a query lan...
geekpy阅读 1,902评论 0赞 7

赞1赞

赞赏

手机看全文