写给非技术同学看的数据分析的完整过程

数据分析的工作在大公司里一般是由专门的数据分析师进行,非技术的同学在日常业务中也需要有一些数据分析的能力,本文就是写给非技术同学的,没有太多复杂的数据挖掘知识。数据分析过程包括明确目的、理清流程、数据采集、构建体系、数据分析、数据可视化这六大步骤,有些需要技术人员的参与,非技术的同学也可以独立完成。

第一步 明确目的

数据分析的开始要提出问题,明确为什么研究数据,可能有以下的情况:

1、定期数据检测,关注有没有数据异常的情况

2、业务出现问题,比如最近流量下降了,通过数据研究为什么

3、数据探索,也是就是说根本就没有目标,看看某个行业的发展如何,可以自己选择切入点。


第二步 理清流程

1、一个方法是通过研究用户行为来理清要分析的指标有哪些,梳理产品线的业务,知道什么时候要进行数据分析,体现了运营的流程化思维。

例如想要分析网易考拉海购用户首次登录注册以及购物的数据,可以先理清流程如下:


来到网站这一步可以收集到UV、PV、来源渠道,首次登录的步骤可以收集登录设备、用户性别、兴趣爱好,购物的步骤可以收集到商品代码、商品类型、商品名称、价格、购买方式、是否优惠、是否包邮、用户住址等信息。用户在网站的所有活动,点击、跳出都是可以收集的数据。

2、一个方法是看你要分析的指标由哪些分支指标或哪些要素构成,可以列出一个公式,公式里单个的指标又是由什么来影响的。

例如网站销量=流量*转化率*客单价

这三个数据都要往前透视,其中流量可以关注流量的大小、渠道来源、渠道投放等,转化率就需要收集数据以后进行转化漏斗分析。


第三步 采集数据

采集数据的对象包括:

前端数据:页面浏览、交互事件、客户端属性、渠道属性

后端数据:业务数据、用户数据、广告费用、产品数据、内容数据、客服系统

历史数据:log数据、历史数据、csv、mysql

其中前端的数据其实有很多,从大众普遍关注的PV、UV、广告点击量,到客户端的网络环境、登陆状态,再到浏览器、操作系统信息,最后到页面性能、JS 异常,这些数据都可以在前端收集到。他们是线上用户的真实反馈,直接体现着产品的用户体验。

埋点是网站分析的一种常用的数据采集方法,例如有可视化埋点和代码埋点。

可视化埋点:嵌入一个SDK在终端上面,通过界面配置的方式确定采集哪些数据,比如对于一些重要的按钮上,不用技术人员参与,业务同学可以自己根据业务采集到数据,评估也很快,缺点是数据采集不够细致。

代码埋点:除了嵌入一个SDK在终端上面,还有服务端SDK,针对关键环节嵌入代码,比如提交订单、支付订单,可以做精细化分析。

采集的原则是:

全:覆盖各种端,比如客户端、服务端,尽可能地全量

细:多个维度,从who、where、what、when、why去考虑

准:前端会存在网络传输丢包的问题,后端会更准确


第四步 构建体系

介绍一个概念联机分析处理(On-Line Analytical Processing,OLAP),OLAP 数据库分为一个或多个多维数据集,每个多维数据集都由多维数据集管理员组织和设计以适应用户检索和分析数据的方式,从而更易于创建和使用所需的数据透视表和数据透视图。


非技术同学不用自己建立OLAP数据库,但要知道构成这个数据库的要素是什么,也就是要分清维度与指标

维度是第一列,在上图中就是城市,可以理解为属性、标签,其他的比如版本、渠道、地域、终端、操作系统、登录时间等都是维度,看维度也可以说是去看待不同数据的角度。

指标就是维度对应的值,是具体的数据指标。指标分为基础指标和复合指标,复合指标是通过基础指标计算出来的,复合指标相比基础指标更具有意义。

基础指标:注册用户量、订单量、PV、UV新增用户

复合指标:退出率、平均停留时长、留存率、支付转化率、跳出率、平均访问深度

分析这些数据本质就是用维度来拆解指标,上面这个表格就是不同的城市的流量获取、行为、转化率的指标数据的表现。首先你要清楚评估的指标有哪些,比如UV、PV、转化率等,然后你要知道从哪些维度去看待这些指标,比如不同地区、不同来源渠道等,然后进行数据分析和比对,最后从中发现问题得出结论。

下面一步说说看数据的时候我们要关注一些什么重要的点。


第五步 数据分析

1、看数据是否有一些异常的情况,如果出现异常就要分析原因

数据变化可能是业务发生了变化,比如一月的某几天是不是运营同学做了个拉新的活动,比如某几个课程的浏览量特别高,是不是他们的文案写的很好;但也有可能统计的算法或者是其他没有预料的因素改变,举一个例子,app统计数据中,  苹果手机从ios6到7以后会发生串号的改变,本来是同一个用户,变成了新用户,就会影响我们分析数据,还有比如说某天PV值特别高,也可能是竞争对手在研究我们的网站。

2、通过对比发现问题

例如可以在同一总体条件下,对不同时期指标数据的比较,与上季度比较、与上年同期比较、与活动前比较、与计划比较。指标的口径范围、计算方法、计量单位必须一致,即要使用同一种单位或标准去衡量,否则,必须进行调整后才能比较。

3、通过数据细分下钻,从当前数据往下展开下一层数据,维度的顺序就代表了由高而低的钻取粒度。通过各种维度比较、分组、筛选、下转指标,研究在哪一个维度那个异常点在哪里,才能知道那个异常点的原因


第六步 数据可视化或者数据报告

数据可视化是借助于图形化手段,清晰有效地传达与沟通信息,数据分析报告是以数据为基础,发现问题,说明事实,给出结论的报告。

一份好的报告要在一开始就提出你的目标和要解决的需求,尽量收集更多的数据,通过数据发现问题并且提出你的结论和建议,建议的是谁做,什么时候做都要写明,如果这么做可以帮助我们的业务得到什么东西,站在业务方去考虑有没有可执行性,最后运用可视化的图形来表达便于理解。

---END---

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 211,948评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,371评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,490评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,521评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,627评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,842评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,997评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,741评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,203评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,534评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,673评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,339评论 4 330
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,955评论 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,770评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,000评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,394评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,562评论 2 349

推荐阅读更多精彩内容