Web Scraper网页爬虫工具
by / luo
时间:2020年7月13日
一、需要的软件
谷歌浏览器
插件 Web Scraper(点击下载:http://suo.im/6cCLUS)
二、步骤
以知乎热榜为例
进入知乎热榜
打开「开发者工具」
打开「开发者工具」
点击上下布局
点击上下布局
点击「Create Sitemap」
点击「Create Sitemap」
name 设置为「zhihu/hot」,URL为当前页面的地址:https://www.zhihu.com/hot
name 设置为「zhihu/hot」,URL为当前页面的地址:https://www.zhihu.com/hot
点击「Add new selector」
点击「Add new selector」
依次点击如图位置
依次点击如图位置
点击预览数据
点击预览数据
点击「Sitemap zhihu/hot」 - 「Scrape」开始爬虫
点击「Sitemap zhihu/hot」 - 「Scrape」开始爬虫
保持默认设置,点击「Start scraping」
保持默认设置,点击「Start scraping」
点击refresh 刷新数据
点击refresh 刷新数据
出现下图表示获取成功
获取成功
点击「Sitemap zhihu/hot」 - 「Export data as CSV」
「Sitemap zhihu/hot」 - 「Export data as CSV」
点击 Download now 下载
点击 Download now 下载
文件下载成功,在下载目录可查看
在下载目录可查看
点击文件即可查看,爬虫完毕
爬虫完毕
注:需要获取多页时,在URL中设置 需要爬取的页面即可
注:需要获取多页时,在URL中设置 需要爬取的页面即可
三、参考文章