“埋点”到底要不要？——源自数据采集的痛苦、幻想与失望

做数据的同学都知道，在数据分析的道路上，数据采集是重中之重。数据采集的质量直接决定了你的分析是否准确。而随着企业对数据的要求越来越高，埋点技术也被推到了“风口浪尖”。所谓，埋的好是高手，埋不好反倒伤了自己。而在数据采集的道路上大家经常会遇到各种各样的问题，今天我们就来分析一下埋点是否需要。

首先我把数据采集的问题归结为三类：

不知道怎么采，包括采集什么数据以及用什么技术手段采集；

埋点混乱，出现埋错、漏埋这样的问题；

数据团队和业务工程团队配合困难，往往产品升级的优先级大于数据采集的优先级。

上面这三类问题让数据团队相当痛苦，进而幻想弃用数据采集，而尝试新方案后，进而迎来的是更大的失望。这里我对这三类问题的现状及应对之策做一下分析。

不知道怎么采集数据

一般创业公司的数据采集，分为三种方式：

第一种直接使用友盟、百度统计这样的第三方统计工具

通过嵌入 App SDK 或 JS SDK，来直接查看统计数据。这种方式的好处是简单、免费，因此使用非常普及。对于看一些网站访问量、活跃用户量这样的宏观数据需求，基本能够满足。

但是，对于现在一些涉及订单交易类型的产品，仅仅宏观的简单统计数据已经不能满足用户的需求了，他们更加关注一些深度的关键指标分析，例如：用户渠道转化、新增、留存、多维度交叉分析等。这个时候才发现第三方统计工具很难满足对数据的需求，而出现这样的问题并不是因为工具的分析能力薄弱，而是因为这类工具对于数据采集的不完整。通过这种方式 SDK 只能够采集到一些基本的用户行为数据，比如设备的基本信息，用户执行的基本操作等。但是服务端和数据库中的数据并没有采集，一些提交操作，比如提交订单对应的成本价格、折扣情况等信息也没有采集，这就导致后续的分析成了“巧妇难为无米之炊”。

通过客户端 SDK 采集数据还有一个问题就是经常觉得统计不准，和自己的业务数据库数据对不上，出现丢数据的情况。这是前端数据采集的先天缺陷，因为网络异常，或者统计口径不一致，都会导致数据对不上。

第二种是直接使用业务数据库做统计分析

一般的互联网产品，后端都有自己的业务数据库，里面存储了订单、用户注册信息等数据，基于这些数据，一些常用的统计分析都能够搞定。这种方式天然的就能分析业务数据，并且是实时、准确的。

但不足之处有两点：一是业务数据库在设计之初就是为了满足正常的业务运转，给机器读写访问的。为了提升性能，会进行一些分表等操作。一个正常的业务都要有几十张甚至上百张数据表，这些表之间有复杂的依赖关系。这就导致业务分析人员很难理解表含义。即使硬着头皮花了两三个月时间搞懂了，隔天工程师又告诉你因为性能问题拆表了，你就崩溃了。另一个不足之处是业务数据表的设计是针对高并发低延迟的小操作，而数据分析常常是针对大数据进行批量操作的，这样就导致性能很差。

第三种是通过 Web 日志进行统计分析

这种方式相较于第二种，完成了数据的解耦，使业务数据和统计分析数据相互分离。然而，这种方式的问题是“目的不纯”。Web 日志往往是工程师为了方便 Debug 顺便搞搞，这样的日志对于业务层面的分析，常常“缺斤少两”。并且从打印日志到处理日志再到输出结果，整个过程很容易出错，我在百度就花了几年的时间解决这一问题。

所以，以上三种方式虽然都多多少少解决了一部分数据采集的问题，但又都解决的不彻底。

无法解决的数据采集问题

埋点混乱

聊完采集方法，再来说说关于埋点的管理。我曾经接触了一家做了七八年的老牌互联网公司，他们的数据采集有 400 多个点。每次数据产品经理提出数据采集的需求后，工程师就会按照要求增加埋点，然后交给数据产品经理去验证。数据产品经理在试用的时候也感觉不到异常，可等产品上线之后，才发现埋的不对，再进行升级发版操作，整个过程效率极低。我们发现，一个公司发展到了一定程度，没有专人去负责埋点管理工作，数据采集就完全没有准确性可据采集就完全没有准确性可言。甚至有时产品上线之后，才发现数据采集的工作没有做，也就是漏埋了。

于是数据团队又开始幻想，既然埋点这么容易出问题，有没有可能不埋点？这就像寻找可以祈求风调雨顺的神灵。

在 2010 年，我的团队曾经做了一个叫 ClickMonkey 的产品，只要页面上嵌入 SDK，就可以采集页面上所有的点击行为，然后就可以绘制出用户点击的热力图，这种方式对于一些探索式的调研还是比较有用的。到了2013 年，国外有家数据分析公司 Heap Analytics，把这种方式更近一步，将 App 的操作尽量多的采集下来，然后通过界面配置的方式对关键行为进行定义，这样便完成了所谓的“无埋点”数据采集。使用这种方案，必须在产品中嵌入 SDK，等于做了一个统一的埋点，所以“无埋点”的叫法实际上是“全埋点”的代名词。

另外，这种方式同样也只能采集前端数据，后端服务器和数据库中的数据，依旧是无可奈何的。并且，即便进行前端数据采集，也无法深入到更细粒度。比如提交订单操作，订单运费、成本价格之类的维度信息，都丢失掉了，只剩下“提交”这一个行为类型。

对于非技术人员，容易被这种方式的名称和直接优势所吸引，但很快又会发现许多深度数据分析需求无法直接满足，进而有种被忽悠的感觉，会感到失望。其实不止是非技术人员，即使是技术人员，也都会让我解释一下“可视化埋点”的原理，说明“无埋点”真是个有迷惑性又不甚清晰的概念，难以细究。

这里说一下关键点：一是事先在产品上埋一个 SDK，二是通过可视化的方式，生成配置信息，也就是事件名称之类的定义，三是将采集的数据按照配置重命名，进而就能做分析了。

数据团队和业务工程团队的配合问题

最后，我们再聊一聊数据采集中遇到的非技术性问题。一般来说，公司到了 A 轮以后，都会有专门的数据团队或者兼职数据人员，对公司的一些业务指标负责。即使为了拿到这些基本的业务指标，一般也要工程团队去配合做一些数据采集工作。这个时候雷军的“快”理念就起到作用了，天下武功唯快不破。于是所有事情都要给产品迭代升级让路，快的都没有时间做数据采集了。殊不知没有数据指标的支撑，又怎么衡量这个功能升级是不是合理的呢？互联网产品并不是功能越多就越好，产品是否经得起用户考验，还是要基于数据说话的，然后学习新知识，用于下一轮的迭代。

数据团队和业务工程团队是平级的团队，而数据团队看起来总是给业务工程团队增加麻烦事儿，似乎也不能直接提升工程团队的 KPI，所以就导致需求不被重视，总是被更高优先级的事情挤掉，数据的事情难有进展。

解决之道

前面给大家抛出了数据采集中常见的三类问题，下面我们来看一下应对之道。

首先从意识上要重视数据采集工作

对于不知道数据怎么采的问题，首先从意识上要重视数据采集工作。数据的事情归结起来就两点：数据采集和数据分析。可不能只看到数据分析而忽略了数据采集。事实上我个人在百度做数据的几年里，最大的心得就是数据这个事情要做好，最重要的是数据源，数据源收集得好，就成功了一大半。数据采集的基本原则是全和细。全就是把多种数据源都进行采集，而不只是客户端的用户数据。细就是强调多维度，把事件发生的一系列维度信息，比如订单运费、成本价格等，尽量多的记录下来，方便后续交叉分析。

需要数据架构师

其次，要有一个数据架构师，对数据采集工作负责，每次数据采集点的增加或变更，都要经过系统化的审核管理，不能顺便搞搞。最后，我这里要推荐 Event 数据模型，针对用户行为数据，简化成一张宽表，将用户的操作归结为一系列的事件。

对于埋点混乱的问题，前面提到的数据架构师的角色，要对这块的管理负责。如果前面完成对 Event 的梳理，这里的埋点就会清晰很多。另外还要推荐尽量从后端进行埋点，这样便无需多客户端埋点了。当然，如果有行为只在客户端发生，还是要在客户端进行埋点的。对于业务复杂的情况，只有负责人还不够。目前我们神策分析针对这个问题，推出了埋点管理功能，对于每个采集点的数据收集情况，都能够做到全盘监控，并且可以针对一些无效采集点进行禁用。总之是希望把这个问题尽量好的解决掉。

对于数据团队和工程团队的配合问题，我这里是想说给创业公司的创始人听的。两个平行部门间的推动，是很难的。数据的事情一定要自上而下的推动，也就是创始人一定要重视数据，把数据需求的优先级提升，这样在项目排期时，能够把数据的需求同时做了。我们知道两军对战，情报收集工作的重要性。做产品也是一样，数据收集工作的重要性不言而喻。

最后，期望越来越多的创始人，从拍脑袋决策逐步向数据驱动决策做出转变。

转自本文由 @桑文锋原创发布于人人都是产品经理。

最后编辑于：2017.12.03 14:05:13

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,126评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,254评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,445评论 0赞 341
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,185评论 1赞 278
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,178评论 5赞 371
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,970评论 1赞 284
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,276评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,927评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,400评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,883评论 2赞 323
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,997评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,646评论 4赞 322
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,213评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,204评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,423评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,423评论 2赞 352
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,722评论 2赞 345

“埋点”到底要不要？——源自数据采集的痛苦、幻想与失望

推荐阅读更多精彩内容