数据采集概述:
1.采集目的:
获取数据,用户后续的建设,建立数据仓库提供统一的数据分析准备。
2.采集的数据源:
以O2O企业为例,大体包含了以CRM/ERP/OA系统为主的业务数据,以网站日志采集的行为数据(过程数据),其他数据(和第三方交换的数据、爬虫数据等)
3.采集数据的原则:
采集业务数据需要保持数据的幂等性(数据可重复拉取,且不影响结果)
4.阶段产出:
·统一的数据采集格式;
·数据PD对业务的数据采集推动能力和反向搭建系统的推动能力;
经验和教训
踩过的坑:
1.行为数据以消息形式进行传送到数据平台,会有数据损耗(不能避免);
2.某些数据需要在业务系统中进行埋点,但业务重视度不高,出错几率高,数据团队维护成本巨大;
3.由于数据平台采集数据是跨多条业务线的,所以制定统一的数据采集格式极其重要,包含了必要的信息,和一些辅助性的信息。比如对某一业务的数据采集格式是:采集标识、用户标识、业务线行为类型、关键信息、辅助信息等;
4.业务系统采集的数据未必满足运营的分析需要。运营需求“投诉率大量增高的原因”,但是系统中并没有被记录,只能通过Excel进行记录;
5.数据源不足够或数据不完整,导致数据产品残缺or项目工作量重复;
解决方案:
1.关键节点数据,采用监控系统,数据上报,分钟级监控数据(可配置阈值)Dashboard;
2.自动化测试,对埋点进行自动化测试,包含Web端和APP端的测试,降低出错几率;
3.核心数据采集,采用以业务数据库为主;对于行为数据,通过埋点进行获取行为数据;
4.对于业务系统采集的数据不满足运营分析需求,反向驱动业务人员录入“系统”(临时搭建的数据格式化采集系统),反向收集数据。
以上