"数据驱动"这一概念在互联网企业早已不新鲜。前几年,我们会花很大的精力去关注企业内部数据,包括:企业CRM,订单,网站分析工具收集的用户行为,以及广告推广后台数据等。根据企业内部的数据,我们可以:判断营销活动与推广渠道的质量与效果,并对营销组合进行优化 -- 营销;对产品与内容进行优化 -- 运营。但是,即便是现在,企业也很难利用好内部数据,其中一部分原因包括:
1)渠道的效果很大程度地依托于归因模型,cookie时长等因素,很难去准确判断
2)数据收集过程十分复杂,而业务和分析人员 容易忽略这些因素去决策。
3)营销与运营需要多数据支持,并不局限于内部数据。
所以,越来越多的互联网公司会试图打通内外部数据,也有不少乙方公司做一些数据产品,用于辅助企业决策。
接下来我们就谈谈外部数据,外部数据主要有以下数据源:
1) 运营商数据
2)互联网中的Open API (包括免费及付费)
3)由互联网企业以及数据产品企业组成的数据联盟(各成员之间的数据可以互相Share)
4)DMP产品(主要用于匹配用户标签)
5)互联网中的数据抓取(非正规但很常用)
那么外部数据可以做什么?
1)引入外部数据因素,完善KPI预测模型。
2)了解行业与竞品分析
3)辅佐营销,比如SEO的数据,Social 数据等
接下来我们说一下非正规但很常用的抓取,数据抓取方法我用了一个简单的脑图来表示:
简单说一下,如果是抓取网页 可以通过抓取网页,或者找到网页所请求的接口;如果抓取APP上的数据,则需要通过抓包工具了,比如截取http请求的fiddler,或者截取tcp/ip请求的wireshark工具。
正好前几天被问到,怎么抓抖音上的数据,于是在这里举个例子,
首先打开fiddler并且连接手机,经过一些配置使fiddler可以监测到手机上的请求。我们可以看到抖音APP请求的数据接口(以抖音的某个列表View为例):
以及返回的数据(JSON格式)
以及用户数据API及返回数据:
找到了API,后面的抓取就可以通过调用API来进行了,再把返回的Json数据中所需要的数据截取出来写入数据库即可,当然还有一些注意事项:
1)HTTP请求时需要一起发送的Header
2)接口请求频率与抓取模式(规避anti-spam机制)
3)获取一条数据简单,但是大批量获取难度就大了