如何取得列表页中的内容链接呢?方法有很多,但LE应当是最简单的一个了。
使用这个工具之前,先引入。
from scrapy.linkextractors import LinkExtractor
注意,linkextractors是个复数。
然后在程序中就可以使用了。
先用LinkExtractor确定查链方法。如:
l = LinkExtractor(restrict_xpaths='//div[@class="alist"]/ul/li/a',allow = 'shtml$')
再用extract_links()提取到一个列表中。
links= l.extract_links(response)
用.url或.txt实例之。
print(link.url,link.text)