0代码也能爬虫?随手点点就能分析数据?

山丁


热衷于发现 善于思索

解决问题的 过程

发现了 有意思的产品

疲惫不堪的 世俗中

妄想做英雄的 普通人

这是山丁的第1篇原创

预计阅读时间6分钟


21世

还有必要学习爬虫吗?

我们是否真的需要?

答案是必然的,网络爬虫是一种按照一定规则自动抓取网页信息的脚本,在大数据时代早已融入生活的今天,如果你有对数据采集分析的需求,就一定会需要!

但往往学习的过程总是困难的,使得我们妥妥的“入门到放弃”

不如我们...

不如我们换一种方法?

如果只是工作或学习中需要采集互联网数据进行应用,可以先试试市面上的通用采集器,降低获取数据而投入的时间成本,从而能专注于自身。而后当我们的需求与日俱增,再去学习以“代码”的形式实现爬虫也不迟。

人的精力是有限的

与其泛泛而为,不如重点突破

先做你应该做的,再做你想做的

采集软件推荐

市面上的数据采集工具众多 

目前活跃的有:

01 .集搜客(GooSeeker)

个人评价:学习成本相对较高,无自动采集,需要手动选择标签定义规则

推荐指数:🌟🌟

02 .八爪鱼采集器

个人评价:学习成本较低,有自动采集,没有针对反爬,IP,策略等(增量)功能的配置

推荐指数:🌟🌟🌟

03 .后羿采集器

个人评价:学习成本极低,强大的自动采集,对小白极其友好

推荐指数:🌟🌟🌟🌟🌟

下面我们就来聊聊

这款推荐指数五颗星的

软件是如何让我欲罢不能的

产品特点

1 .免费

数据采集到导出,一整套免费的流程

部分功能收费,例如高级数据去重,定时采集等..如果想白嫖使用,甚至不需要注册...

2 .适配多平台

分别适配Windows/Mac/Linux

3 .功能强大

两种模式 智能模式 与 流程图模式

    3.1 智能模式

操作极其简单 👉 输入网址  👉 智能识别出网页中的内容

无需配置任何采集规则就能够完成数据的采集。

    3.2 流程图模式

为了满足用户丰富的个性化数据采集需求而研发的操作模式。

以可视化的网页点选操作,只需要打开被采集的网站,用鼠标点击几下配置就能自动生成复杂的数据采集规则。

基础功能

1 .数据采集 - 文字

注:如图片模糊,所有高清图片会放在

文章底部>文件资料内

这里以采集B站Up主“山丁SOOK”

每期视频名称、视频介绍、发布时间、点赞、投币、收藏数目为案例

①复制Up主个人主页网页地址

⬇️

②后裔采集器 输入网址 智能采集

⬇️

可以看到已经把标题,链接,缩略图等数据自动分析出来了

③删除多余的数据

只剩下 标题 标题链接 

⬇️

那么 点赞 投币 收藏数目怎么获取呢?

⬇️

④点击底部区域的右上角深入采集!

⬇️

进入深度采集页面之后

需要我们手动添加数据

⬇️

⑤单击右上角的添加字段 再将鼠标移至网页内

就会出现一个类似于“笔“的图标

并且与下方的新增字段有一条线链接

⬇️

⑥把鼠标移动至 视频的点赞处 点击

⬇️

就会发现下面新增了一列数据 就是我们的点赞数

⬇️

⑦再右键点击“字段1” 重命名 

输入点赞数

⬇️

这样点赞数的采集就完成了

⬇️

视频介绍,投币,收藏数分别添加完成后

⬇️

⑧点击右下角的“开始采集”

⬇️

就可以看到所有我们想要的数据已经乖乖的躺在里面了

⬇️

⑨爬取完毕后 选择立即导出

⬇️

⑩设定导出地址与类型

⬇️

⑪点击导出

2 .数据采集 - 图片

这里以采集微博“山丁SOOK”中发布的时间、正文、图片为案例

①复制微博主页网页地址

⬇️

②打开采集器 输入网页地址 智能采集

⬇️

弹出“识别列表失败”

“识别列表失败”是因为微博与其他网页的翻页形式不同

正常网页是底部有 1,2,3,4页 而微博则是瀑布流

③在分页设置中选择 瀑布流分页(滚动加载)

⬇️

④可以看到采集器已经把图片的链接识别出来了

⬇️

⑤点击开始采集

⬇️

⑥选择左侧选项卡中的 文件下载

选中 采集中同时下载文件 👉 图片

⬇️

⑦设定图片下载的地址

⬇️

⑧采集完成后就可以在文件夹中看到了

进阶使用

1 .流程图模式

流程图模式的本质是图形化编程。我们可以利用后裔采集器提供的各种控件,模拟编程语言中的各种条件控制语句,从而模拟真人浏览网页的各种行为爬取数据。

比如说下图这个流程图,就是模拟真人抓取网易云歌曲评论的行为去抓取相关数据。

经过我个人的几次测试,我认为流程图模式有一定的学习门槛,但是和从头学习 python 爬虫比起来,学习曲线还是缓和了不少。

这里以流程图模式采集网易云“山丁SOOK”中单曲评论为例

①复制网易云网页地址

⬇️

②后裔采集器中选择流程图模式 开始采集

⬇️

③输入网址 立即创建

⬇️

④进入到页面之后 将鼠标挪至评论区块 点击

⬇️

⑤在左侧出现的操作提示中选择

“提取列表中的数据”

⬇️

⑥可以看到下面已经为我们自动生成了循环判断语句

⬇️

右侧抓取数据概览

⬇️

下一步就是测试语句通顺,然后爬取,不再赘述

2 .数据清洗

 数据清洗则是在开始采集任务之前的 数据去重选项卡内设定的去重条件,

所有字段重复(免费),单独字段重复(收费)和当碰到重复数据所进行的操作,是跳过还是停止任务.

3 .IP代理切换

IP代理切换则是在开始采集任务之前的智能策略选项卡内设定.

免费版是自带了智能切换,但如果不能满足我们,我们也可以对代理进行单独的设定.

总结

经过我本人的平均一个月使用一次的经历,足以证明后羿采集器是非常贴合我的需求的,免费且功能强大,可以解决绝大部分编程小白的数据抓取需求

其他的高级功能还有很多

这里没有介绍到

但如果没有编程基础,把这些逻辑清楚,

也是对以后编程的学习有很大帮助!


本文使用 文章同步助手 同步

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 219,270评论 6 508
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,489评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 165,630评论 0 356
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,906评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,928评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,718评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,442评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,345评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,802评论 1 317
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,984评论 3 337
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,117评论 1 351
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,810评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,462评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,011评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,139评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,377评论 3 373
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,060评论 2 355

推荐阅读更多精彩内容