数据化运营
- 您在第 15-15 页的标注 | 添加于 2019年11月12日星期二 下午7:32:03
。 数据需要经过抽取、 转换和装载, 即经过ETL后才可以存储在数据 仓库中心, 为数据分析奠定基础。
==========
数据化运营
- 您在第 18-18 页的标注 | 添加于 2019年11月12日星期二 下午7:37:35
在数据分析层经过数据挖掘人 员对数据进行数据挖掘、 用户画像建模、 推荐算法的制定, 可以支持业 务应用层面向用户的智能营销和个性化内容推荐的功能
==========
数据化运营
- 您在第 20-20 页的标注 | 添加于 2019年11月12日星期二 下午7:39:59
因此集中型数据架构有效地解决了 数据源不一致问题和数据口径定义问题。
==========
数据化运营
- 您在第 21-21 页的标注 | 添加于 2019年11月12日星期二 下午7:41:53
常见的岗位包括: 数据分析 师、 算法工程师、 爬虫工程师、 ETL工程师、 数据挖掘工程师等。 从其 工作内容来分, 我们将其归纳为数据治理、 数据分析挖掘、 数据产品三 个层次
==========
数据化运营
- 您在第 23-23 页的标注 | 添加于 2019年11月12日星期二 下午7:46:11
Excel、 SQL、 Python、 PPT以及业务理解能 力。
==========
数据化运营
- 您在第 24 页的标注 | 添加于 2019年11月12日星期二 下午7:49:44
MATCH
==========
数据化运营
- 您在第 24 页的标注 | 添加于 2019年11月12日星期二 下午7:49:48
OFFSET
==========
数据化运营
- 您在第 26-26 页的标注 | 添加于 2019年11月12日星期二 下午7:51:40
包含的功能有最优化、 线性代数、 积分、 插值、 拟合、 常微分方程求解、 快速傅里叶变换、 信号处理和图像处理等。 SciPy的安装依赖于NumPy。
==========
数据化运营
- 您在第 30-30 页的标注 | 添加于 2019年11月12日星期二 下午7:56:55
对于管理层来说
==========
数据化运营
- 您在第 30-30 页的标注 | 添加于 2019年11月12日星期二 下午7:57:03
对于运营方来说,
==========
数据化运营
- 您在第 30-30 页的标注 | 添加于 2019年11月12日星期二 下午7:57:10
对于产品方来说
==========
数据化运营
- 您在第 31-31 页的标注 | 添加于 2019年11月12日星期二 下午7:57:37
常见的数据分析目标主要分三大类, 即解决是什么、 为什 么、 做什么的问题。 解决是什么的问题
==========
数据化运营
- 您在第 31-31 页的标注 | 添加于 2019年11月12日星期二 下午7:58:06
常见的数据分析目标主要分三大类, 即解决是什么、 为什 么、 做什么的问题
==========
数据化运营
- 您在第 31-31 页的标注 | 添加于 2019年11月12日星期二 下午7:59:16
案例一: 付费用户客单价下降原因定位
==========
数据化运营
- 您在第 33-33 页的标注 | 添加于 2019年11月12日星期二 下午8:03:11
图2-1 客单价下降原因多维分析
==========
数据化运营
- 您在第 32-32 页的标注 | 添加于 2019年11月12日星期二 下午8:04:00
而在线问诊是平台上 医生给用户提供的虚拟服务, 故我们从医生、 用户、 平台三块展开分 析
==========
数据化运营
- 您在第 33-33 页的标注 | 添加于 2019年11月13日星期三 上午11:52:20
案例二: 预算超支解决方案
==========
数据化运营
- 您在第 33-33 页的标注 | 添加于 2019年11月13日星期三 上午11:53:15
数据来源、 统计口径、 统计周期。
==========
数据化运营
- 您在第 35-35 页的标注 | 添加于 2019年11月13日星期三 下午12:04:35
分析师的定位, 重在分析, 而不是拍板事情的做法。
==========
数据化运营
- 您在第 37-37 页的标注 | 添加于 2019年11月13日星期三 下午12:09:45
在优化过程中可通过用户分群进行精细化运营, 将精准内容 推送给有特定需求的用户, 提高用户对产品的满意度。 数据可以通过追 踪用户行为, 来分析哪些行为可以激发用户持续访问产品, 如何促使这 些行为的发生等, 并通过用户生命周期的研究, 对沉默用户进行识别, 让运营通过运营手段对这批用户进行唤醒; 对流失用户进行标记, 让运 营通过推送、 发放优惠等方式进行召回。
==========
数据化运营
- 您在第 39-39 页的标注 | 添加于 2019年11月13日星期三 下午7:25:31
从流量营销的角度来看
==========
数据化运营
- 您在第 39-39 页的标注 | 添加于 2019年11月13日星期三 下午7:25:44
从分析对象的逻辑结 构来看
==========
数据化运营
- 您在第 39-39 页的标注 | 添加于 2019年11月13日星期三 下午7:25:51
从流量运营的角度来看
==========
数据化运营
- 您在第 44-44 页的标注 | 添加于 2019年11月13日星期三 下午7:37:53
一般虚假流量可以从以下几个维度来看
==========
数据化运营
- 您在第 44-44 页的标注 | 添加于 2019年11月13日星期三 下午7:38:23
虚假流量如 果是用程序控制带来的单击, 可能不会考虑分时的影响
==========
数据化运营
- 您在第 44-44 页的标注 | 添加于 2019年11月13日星期三 下午7:39:34
风控规则
==========
数据化运营
- 您在第 41-41 页的标注 | 添加于 2019年11月13日星期三 下午7:42:22
SEO流量指 的是通过网站排名技术(网站Web结构调整、 网站内容建设、 网站代码
==========
数据化运营
- 您在第 41-41 页的标注 | 添加于 2019年11月13日星期三 下午7:42:34
优化和编码等) , 把网站排名提前, 被用户搜索到带来的免费流量;
==========
数据化运营
- 您在第 41-41 页的标注 | 添加于 2019年11月13日星期三 下午7:42:43
SEM流量指的是搜索引擎营销带来的流量, 即搜索引擎根据用户使用习 惯, 根据用户搜索的信息推送营销信息带来的流量;
==========
数据化运营
- 您在第 48-48 页的标注 | 添加于 2019年11月13日星期三 下午7:50:01
PV及UV一般用来衡量网站的流量情况
==========
数据化运营
- 您在第 50-50 页的标注 | 添加于 2019年11月13日星期三 下午7:53:36
高跳出率是个负面指标。 这个指标在侧面也显示出用户的流失率
==========
数据化运营
- 您在第 55-55 页的标注 | 添加于 2019年11月13日星期三 下午7:58:23
A/B测试也称分离测试、 对照试验
==========
数据化运营
- 您在第 55-55 页的标注 | 添加于 2019年11月13日星期三 下午7:59:47
改动之后是否比原来好, 当然如何评判“好”, 需要数据分析人员和运营 及产品沟通, 确认相关指标, 比如是单击这个功能键的UV增加了, 还 是对应的商户的转化率提升了等
==========
数据化运营
- 您在第 56-56 页的标注 | 添加于 2019年11月13日星期三 下午8:01:33
A/B测试需要注意的点:
==========
数据化运营
- 您在第 56-56 页的标注 | 添加于 2019年11月13日星期三 下午8:02:28
长时间的足够样本的测试结果 才能逼近真实结果。
==========
数据化运营
- 您在第 57-57 页的标注 | 添加于 2019年11月13日星期三 下午8:03:54
用户流失模块主要需要定义流失, 通常的做法是先对产品的用户构 建生命周期模型, 看多长时间用户没有登录即为流失
==========
数据化运营
- 您在第 58-58 页的标注 | 添加于 2019年11月13日星期三 下午8:06:07
合理有效地对用户群体进行细分, 是数据化运营的基本 要求
==========
数据化运营
- 您在第 59-59 页的标注 | 添加于 2019年11月13日星期三 下午8:08:32
对于用户细分, 首要任务是根据具体的业务场景, 确定不同的分类 规则及指标,
==========
数据化运营
- 您在第 59-59 页的标注 | 添加于 2019年11月13日星期三 下午8:09:08
我们按业务的关键流程将用户群体细分为注册用户、 活跃用户、 留 存用户、 下单用户及忠诚用户。 每一个用户群体的细分都有其独特的分 析意义
==========
数据化运营
- 您在第 61-61 页的标注 | 添加于 2019年11月13日星期三 下午8:10:49
复杂一点的可以通过统计分析方法(如聚类、 决策树等) 总结特征 来显著区别不同用户群体。 也有比较成熟的分析方法, 如RFM模型
==========
数据化运营
- 您在第 66-66 页的标注 | 添加于 2019年11月14日星期四 下午7:29:32
但能通过行为数据的分析, 对用户构建精 细的、 完整的用户画像, 从而判断用户对产品( 网站) 的期望和喜好。
==========
数据化运营
- 您在第 69-69 页的标注 | 添加于 2019年11月14日星期四 下午7:34:39
对新老用 户细分的留存分析就是数据驱动运营的典型应用, 比如
==========
数据化运营
- 您在第 70-70 页的标注 | 添加于 2019年11月14日星期四 下午7:36:44
比如产品初期, 为了数据看起来好看, 数据可能会定义比较宽, 比如激活就算活跃
==========
数据化运营
- 您在第 72-72 页的标注 | 添加于 2019年11月14日星期四 下午7:40:03
事出 必有因, 此时需要详细定位原因, 是埋点数据没有上报? 还是日志解析 出了问题? 如果数据没有问题, 那么是产品改版, 没有引导机制, 用户 找不到入口了? 还是产品改版, 比如新加了某个流程, 比如实名等强制 性措施, 用户对新产品不满意
==========
数据化运营
- 您在第 73-73 页的标注 | 添加于 2019年11月14日星期四 下午7:42:07
要分析用户的转化情况, 不仅需要熟知业务流程, 也需要熟知数据 流程, 即将业务流程转化成数据流程
==========
数据化运营
- 您在第 73-73 页的标注 | 添加于 2019年11月14日星期四 下午7:42:17
互联网行业独有的日志数据 能记录用户的所有访问行为
==========
数据化运营
- 您在第 74-74 页的标注 | 添加于 2019年11月14日星期四 下午7:43:51
从整体及细分渠道, 细 分时间段、 细分活动来看不同的转化情况,
==========
数据化运营
- 您在第 75-75 页的标注 | 添加于 2019年11月14日星期四 下午7:46:25
Facebook的Melnick曾将用户的生命周期价值解释为变现、 留存、 传播三个变量组成的函数, 即CLTV=f(变现、 留存、 传播) 。
==========
数据化运营
- 您在第 76-76 页的标注 | 添加于 2019年11月14日星期四 下午7:48:12
在用户运营的过程中, 我们不能一上来就唯周期论, 而是要定一个 目标, 围绕目标我们能拆解为哪些关键指标, 要提升这些关键指标需要 去满足用户什么核心需求。 比如用户生命周期分析的核心目标是: 提升 用户生命周期每个节点的转化率, 提升用户的留存(用户的参与程 度)
==========
数据化运营
- 您在第 79-79 页的标注 | 添加于 2019年11月14日星期四 下午7:53:34
应用一 根据拆解指标为提升LTV制定不同的运营策略
==========
数据化运营
- 您在第 79-79 页的标注 | 添加于 2019年11月14日星期四 下午7:53:40
应用二 评估用户运营活动是否盈利
==========
数据化运营
- 您在第 75-75 页的标注 | 添加于 2019年11月14日星期四 下午7:54:19
用户的生命周期价值(LTV
==========
数据化运营
- 您在第 78-78 页的标注 | 添加于 2019年11月14日星期四 下午7:56:44
LTV=(某个客户每个月的下单频次*客单价*毛利率) *(1/月流失 率)
==========
数据化运营
- 您在第 79-79 页的标注 | 添加于 2019年11月14日星期四 下午7:57:02
CLTV=20*1/0.5+5*5*1/0.7=41.43元。
==========
数据化运营
- 您在第 80-80 页的标注 | 添加于 2019年11月14日星期四 下午7:58:03
应用三 追踪投资回报率
==========
数据化运营
- 您在第 80-80 页的标注 | 添加于 2019年11月14日星期四 下午7:58:41
投资回报率 (ROI
==========
数据化运营
- 您在第 80-80 页的标注 | 添加于 2019年11月14日星期四 下午7:58:48
要提高ROI, 需要从以下三方面着手: (1) 提高转化率 提高转化率, 一在开源, 二在节流。 所谓开源, 指的是要不断通过 各种方式来获取新用户; 节流指的是减少产品的用户流失, 及挽回即将 流失或已经流失的用户。 这里主要介绍节流。 节流主要从以下两点出 发, 来最大化地减少用户流失。 1) 从产品出发, 在具体的研究中, 所有脱离产品的用户流失预警 都是耍流氓。 首先我们要通过现有的指标找出用户是在哪一步流失的, 再结合具体的产品进行改进。 比如某一个环节会产生闪退的情况, 那就 推动产品解决闪退的问题; 比如下单转化中流程过于繁琐, 支付渠道过 于单一, 那就推动流程简化, 支付形式多样化; 再比如前面我们分析过 用户生命周期所有关键节点会用到的转化率的关键指标, 从这个公式 看, 追踪各个关键节点的转化率, 哪个节点的转化率比较小, 定位原因 进行优化。 举一个具体应用的例子, 某产品各个渠道的注册率差不多,
==========
数据化运营
- 您在第 80-80 页的标注 | 添加于 2019年11月14日星期四 下午7:59:12
从ROI的公式来看, 要提高ROI, 需要从以下三方面着手: (1) 提高转化率
==========
数据化运营
- 您在第 81-81 页的标注 | 添加于 2019年11月14日星期四 下午8:02:49
(2) 提高ARPU
==========
数据化运营
- 您在第 81-81 页的标注 | 添加于 2019年11月14日星期四 下午8:02:59
(3) 降低成本
==========
数据化运营
- 您在第 81-81 页的标注 | 添加于 2019年11月14日星期四 下午8:03:10
呢? 可以从抓用户的需求来展开。 即①用发放优惠券、 各种抵价金币、 红包等优惠方式, 来满足用户的占便宜心理, 促进用户下单; ②对用户 设立等级体系, 并对不同的用户等级设立不同的福利规则, 满足用户对 身份地位高人一等的诉求; ③建立精准营销平台, 精准定位用户群体, 并对这部分群体进行个性化精准推荐, 满足用户的特定场景需求; ④提 示用户信息不会被泄露, 满足用户对安全感的诉求; ⑤生日提供满减券 或其他福利, 满足用户对情感的认同需求。
==========
数据化运营
- 您在第 84-84 页的标注 | 添加于 2019年11月14日星期四 下午8:04:16
分析报告模板化
==========
数据化运营
- 您在第 84-84 页的标注 | 添加于 2019年11月14日星期四 下午8:04:25
分析过程逻辑化, 分析结论自动化
==========
数据化运营
- 您在第 84-84 页的标注 | 添加于 2019年11月14日星期四 下午8:04:53
企业数据部门对接的需求方主要包括产品运营部门和各业务部门
==========
数据化运营
- 您在第 84-84 页的标注 | 添加于 2019年11月14日星期四 下午8:05:35
数据部 门提供了5种数据分析/支持方式, 包括: 自助分析平台、 数据提取平 台、 业务专题分析、 运营日报、 周报/月报分析
==========
数据化运营
- 您在第 87-87 页的标注 | 添加于 2019年11月15日星期五 下午12:40:10
因此 数据管理报告并不是从有什么数据出发, 而是从实际业务应用场景出 发。
==========
数据化运营
- 您在第 89-89 页的标注 | 添加于 2019年11月15日星期五 下午12:45:20
图3-3 Excel报告自动化流程 1) 数据仓库: 对企业业务数据及日志数据等多个异构数据源集成 存储的结构化集成环境, 需要数据分析师使用HQL语言从数据库中提取 数据。 2) 原始数据表: 是用于存放每次通报所需关键指标数据的汇总 表, 一般用HQL语言经过初步的数据清洗及数据预处理(如汇总、 排 序、 离散、 格式转换等) 从数据库提取出来。 3) 中间转化数据表: 用来动态引用数据源中的数据, 并进行相应 的数据转化、 指标计算、 图表绘制及通报文字组合等工作。 4) Excel日报正文: 根据分析框架, 组织引用“数据转化区域”中相 应组合好的数据、 通报文字及绘制好的图表, 以一定格式呈现出来。
==========
数据化运营
- 您在第 91-91 页的标注 | 添加于 2019年11月15日星期五 下午12:50:14
Excel中间转化数据表的创建是整个Excel自动化管理模板中最为关 键的一环。
==========
数据化运营
- 您在第 91-91 页的标注 | 添加于 2019年11月15日星期五 下午12:50:22
在数据转化表中主要用到了日期控件、 MATCH函数、 TEXT函 数、 OFFSET函数和INDEX函数
==========
数据化运营
- 您在第 98-98 页的标注 | 添加于 2019年11月15日星期五 下午2:39:33
最后使用“&”连接符将文 字描述和数字进行组合
==========
数据化运营
- 您在第 104-104 页的标注 | 添加于 2019年11月15日星期五 下午3:12:55
在完成上述Python脚本后, 将该py文件放入连接到数据仓库的服务 器上, 在Linux下设置crontab调度语句
==========
数据化运营
- 您在第 105-105 页的标注 | 添加于 2019年11月15日星期五 下午3:22:36
专题分析报告是面向各业务线具体 问题的分析, 也最能考验一个分析师的业务分析能力
==========
数据化运营
- 您在第 106-106 页的标注 | 添加于 2019年11月15日星期五 下午3:29:50
理清分析思路是数据分析里面最重要的过程, 而对业务指 标的梳理可有效帮助分析师快速理清思路。
==========
数据化运营
- 您在第 108-108 页的标注 | 添加于 2019年11月15日星期五 下午7:22:04
总运营指标(KPI
==========
数据化运营
- 您在第 109-109 页的标注 | 添加于 2019年11月15日星期五 下午7:23:14
次, PV的本质是衡量页面被浏览的“绝对数量”。 ·成交总额(GMV) : 只要用户下单, 生成订单号便记在GMV里 (无论
==========
数据化运营
- 您在第 111-111 页的标注 | 添加于 2019年11月15日星期五 下午7:27:55
从流量来源角度来看, 其来源包括直接访问、 搜索引擎、 商务合作 以及自媒体等方面:
==========
数据化运营
- 您在第 114-114 页的标注 | 添加于 2019年11月15日星期五 下午7:37:18
站内方面指本企业的日志数据、 业务数据
==========
数据化运营
- 您在第 114-114 页的标注 | 添加于 2019年11月15日星期五 下午7:37:29
站外方面指投放管理后台对应的数据, 投放后台可以 帮我们追踪到投放关键词的曝光量、 单击量、 所付费用, 但是不能帮我 们追踪哪些关键词带来了订单及对应的金额(该部分数据在企业内服务 器上) 。
==========
数据化运营
- 您在第 117-117 页的标注 | 添加于 2019年11月15日星期五 下午7:40:48
如图3-20所示, 某日订单数量环比突然减少, 如何定位原因
==========
数据化运营
- 您在第 118-118 页的标注 | 添加于 2019年11月15日星期五 下午7:41:34
图3-20 某产品订单下降原因定位
==========
数据化运营
- 您在第 120-120 页的标注 | 添加于 2019年11月15日星期五 下午7:45:22
定义一套对用户的监控指标可从三个方面来考虑: 一方面是用户类 型, 另一方面是用户的留存与流失, 第三方面是建立用户画像
==========
数据化运营
- 您在第 120-120 页的标注 | 添加于 2019年11月15日星期五 下午7:46:06
分析该渠道的活跃用户在平台的行为特 征、 消费特征, 进而有针对性地对非活跃用户做定向精准营销
==========
数据化运营
- 您在第 122-122 页的标注 | 添加于 2019年11月15日星期五 下午7:53:00
相比于常规数据分析(如日报、 周报等) 宏观把握数据的趋势和异 动, 专题分析报告需要在微观层面对异动的数据指标进行细分、 定位问 题的原因并解决问题。 例如针对某日商城营收下降的情况, 需要定位问 题原因, 通过对比分析(与历史数据对比) 、 细分分析(对订单渠道、 订单类型、 订单来源等维度下钻分析) 等分析方法可以完成对异常数据 的分析和紧急需求的处理。
==========
数据化运营
- 您在第 123-123 页的标注 | 添加于 2019年11月15日星期五 下午7:54:50
根据图表 可传递的信息, 我们将其划分成比较分析、 成分分析、 趋势分析、 分布 分析、 转化率分析等五类
==========
数据化运营
- 您在第 124-124 页的标注 | 添加于 2019年11月17日星期日 下午4:15:30
当存在多维数据(四维以上) , 且每 个维度指标可量化排序时, 选用雷达图。
==========
数据化运营
- 您在第 127-127 页的标注 | 添加于 2019年11月17日星期日 下午4:21:10
目录不应设置过细, 最多不宜超过3级
==========
数据化运营
- 您在第 129-129 页的标注 | 添加于 2019年11月17日星期日 下午4:23:15
即将一页空白PPT划分为3行4列大 小相同的格子, 用不同的组合方式去填充这12格区域(
==========
数据化运营
- 您在第 130-130 页的标注 | 添加于 2019年11月17日星期日 下午4:23:42
矩阵分析、 失效模式分析等分析方法进行验证, 选择一个能够实现预期 目标的最优方案。 该方案要有一定的前瞻性, 且措施切实可行。
==========
数据化运营
- 您在第 130-130 页的标注 | 添加于 2019年11月17日星期日 下午4:25:01
PPT关联Excel
==========
数据化运营
- 您在第 134-134 页的标注 | 添加于 2019年11月17日星期日 下午4:26:57
比如按一定的业务逻辑模型, 通过一些指标的内在联系组合起 来的可分析问题的模型, 如AARRR及RFM(AARRR在2.1.3节介绍, RFM在第7章介绍)
==========
数据化运营
- 您在第 134-134 页的标注 | 添加于 2019年11月17日星期日 下午4:27:30
常 用的逻辑模型有4P营销理论、 5W2H分析法、 PEST分析方法、 SWOT、 杜邦分析法、 逻辑树模型、 金字塔原理、 PDCA循环规则、 SMART原 则、 二八原则等, 下面我们来了解一下其中的部分模型。 4.1.1 4P营销理论
==========
数据化运营
- 您在第 134-134 页的标注 | 添加于 2019年11月17日星期日 下午4:27:43
常 用的逻辑模型有4P营销理论、 5W2H分析法、 PEST分析方法、 SWOT、 杜邦分析法、 逻辑树模型、 金字塔原理、 PDCA循环规则、 SMART原 则、 二八原则
==========
数据化运营
- 您在第 135-135 页的标注 | 添加于 2019年11月17日星期日 下午4:28:45
这个理论将营销组合的要素分为产 品(Product) 、 价格(Price) 、 促销(Promotion) 、 渠道(Place) 四 要素
==========
数据化运营
- 您在第 138-138 页的标注 | 添加于 2019年11月17日星期日 下午4:31:30
5W2H分析法
==========
数据化运营
- 您在第 139-139 页的标注 | 添加于 2019年11月17日星期日 下午4:33:36
PEST分析方法一般用于对宏观环境的分析, 一般指的是通过对这 四类外部环境——P(Political, 代表政治环境) 、 E(Economic, 代表 经济环境) 、 S(Social, 代表社会环境) 、 T(Technological, 代表技 术环境) 的分析来把握整体宏观环境, 从而评估对企业业务的影响方 向。
==========
数据化运营
- 您在第 141-141 页的标注 | 添加于 2019年11月17日星期日 下午4:37:42
SWOT是战略分析的一种方法, 它主要是通过分析企业自身的优
==========
数据化运营
- 您在第 142-142 页的标注 | 添加于 2019年11月17日星期日 下午4:37:58
势、 劣势、 机会和威胁, 通过内部影响因素与外在环境的分析来为企业 战略提供参考。 S(Strength) 代表优势, W(Weakness) 代表弱势, O(Opportunity) 代表机会, T(Threat) 代表威胁, 其中, S、 W是内 部因素, O、 T是外部因素。 在分析外部环境时可以从宏观环境、 行业 环境、 竞争环境来着手
==========
数据化运营
- 您在第 143-143 页的标注 | 添加于 2019年11月17日星期日 下午4:41:22
逻辑树是将问题一步一步拆解, 将某已知问题的影响层当成已知问 题的树枝, 每多一个影响层, 则添加一个树枝, 直到列出已知问题的所 有影响层为止。 且各逻辑树枝之间的关系需要“相互独立、 完全穷 尽”(MECE
==========
数据化运营
- 您在第 147-147 页的标注 | 添加于 2019年11月17日星期日 下午4:45:11
常用的网站分析的维度包括时间(如时、 日、 周、 月、 季、 年等) 、 地理位置、 来源、 渠道、 浏览器、 关键词、 竞品等。 常用的业务指标模块的维度含时间、 省份、 业务线等
==========
数据化运营
- 您在第 147-147 页的标注 | 添加于 2019年11月17日星期日 下午4:47:06
指的是与相邻的上一周期做对比
==========
数据化运营
- 您在第 148-148 页的标注 | 添加于 2019年11月17日星期日 下午4:47:22
同比指的是两个周期同一个时间点的比较
==========
数据化运营
- 您在第 148-148 页的标注 | 添加于 2019年11月17日星期日 下午4:50:15
如2017年10月的月同 比, 指的是2017年10月和2016年10月做对比, 而2017年10月的月环比, 指的是2017年10月和上一周期2017年9月做对比
==========
数据化运营
- 您在第 151-151 页的标注 | 添加于 2019年11月17日星期日 下午4:54:40
选择预测类 趋势线的话会根据现有数据走势对数据将来的走势做一个预判; 移动平 均趋势线一般是在我们无法评估数据的变化程度时, 根据数据的实际情 况拟合的反映数据趋势变化的线
==========
数据化运营
- 您在第 153-153 页的标注 | 添加于 2019年11月17日星期日 下午4:57:40
权重的设定主要分两种: 一种是客 观赋权法, 如变异系数法、 熵值法、 主成分分析法等; 另一种是主观分 析法, 如专家赋权、 层次分析法等
==========
数据化运营
- 您在第 153-153 页的标注 | 添加于 2019年11月17日星期日 下午4:59:27
如果通过一个指标可以明显区分不同的样本
==========
数据化运营
- 您在第 153-153 页的标注 | 添加于 2019年11月17日星期日 下午5:00:01
如果样本在某 个指标的表现上没有特别明显, 即该指标区分样本的能力较弱, 则应该 给这个指标赋予比较小的权重
==========
数据化运营
- 您在第 153-153 页的标注 | 添加于 2019年11月17日星期日 下午5:01:08
此处以常用的标准差系数来表示指标的变异信息, 用变异系数法 CV(Coefficient of Variance) 来举例说明, 具体的算法如下: CVi=样本标准差/样本均值=σ/μ
==========
数据化运营
- 您在第 154-154 页的标注 | 添加于 2019年11月17日星期日 下午5:01:54
熵值法可用来对多个样本下的不同指标赋权, 来衡量指标的 离散程度, 从而衡量指标对综合评价指标的影响
==========
阿勒泰的角落 (李娟)
- 您在位置 #3702 的书签 | 添加于 2019年11月17日星期日 下午10:40:00
==========
数据化运营
- 您在第 156-156 页的标注 | 添加于 2019年11月18日星期一 下午7:47:45
多重共线性等影响
==========
数据化运营
- 您在第 156-156 页的标注 | 添加于 2019年11月18日星期一 下午7:47:53
主成分分析法这种“降维”方法应运而生
==========
数据化运营
- 您在第 156 页的标注 | 添加于 2019年11月18日星期一 下午7:49:56
通过
==========
数据化运营
- 您在第 156-156 页的标注 | 添加于 2019年11月18日星期一 下午7:50:13
通过线性组合将各个主成分变成原始变量的组合
==========
数据化运营
- 您在第 157-157 页的标注 | 添加于 2019年11月18日星期一 下午7:52:19
即第一主成分的 方差最大, 从第二主成分开始一次递减。 可以通过R的Principal Components来直接进行主成分分析。
==========
数据化运营
- 您在第 161-161 页的标注 | 添加于 2019年11月18日星期一 下午7:57:47
常用的数据分析方法除了上述的多维分析、 趋势分析、 转化分析等 基于统计类的方法外, 一些深层次的问题需要借助数据挖掘的方法来实 现, 如聚类、 分类、 回归分析等。
==========
数据化运营
- 您在第 161-161 页的标注 | 添加于 2019年11月18日星期一 下午7:58:18
常用的聚类方法包括K-Means聚类、 层次聚类方法。
==========
数据化运营
- 您在第 166-166 页的标注 | 添加于 2019年11月18日星期一 下午8:01:47
在数据化运营中, 比如考核渠道质量, 就可以用四象限矩阵图。 假 设各个渠道带来的下单数及各个渠道的ROI(投资回报率) 是选取来评 估各个渠道质量的指标, 下面用Tableau来演示如何制作四象限矩阵 图。
==========
数据化运营
- 您在第 175-175 页的标注 | 添加于 2019年11月18日星期一 下午8:05:45
3月有 31天, 而4月只有30天, 这种情况下我们可以深究一下, 是运营做了促
==========
数据化运营
- 您在第 176-176 页的标注 | 添加于 2019年11月18日星期一 下午8:05:56
销活动让销售额增长的? 还是拉新的用户比较优质? 是产品转化流程更 符合用户习惯了? 还是目标用户群体在4月有一定的爆发? 同时可以看 看子业务的产品属性和时间是否相关。 细究下去, 一个小专题的分析思 路就应运而生。
==========
数据化运营
- 您在第 182-182 页的标注 | 添加于 2019年11月18日星期一 下午8:08:00
登录网址: https://wordart.com, 打开之后整个界面是英文状态的, 这是一个支持中文(中文字体需自己导入) 的在线生成文字云的网站,
==========
数据化运营
- 您在第 191-191 页的标注 | 添加于 2019年11月18日星期一 下午8:10:31
一部分人认为购物车增加推荐会分散用户的下单注意 率, 可能会影响转化率; 另一部分则认为交叉推荐可以提升用户体验, 增加总GMV。 传统公司遇到类似的争执可能会由领导拍脑袋决定, 而 AB Test会让两种方案同时在线, 用数据来证明哪种方案更符合用户心
==========
数据化运营
- 您在第 192-192 页的标注 | 添加于 2019年11月18日星期一 下午8:12:33
如果不做AB Test, 那当产品新功能 上线后, 如果整体GMV提升, 便很难确定该现象是因为季节性、 竞争 环境的变化导致的, 还是功能本身带来的效果。
==========
数据化运营
- 您在第 192-192 页的标注 | 添加于 2019年11月18日星期一 下午8:15:16
将参与实验的人群随机分配, 能够保证结果的无偏统计意义。 常规 做法是根据用户设备号+实验号合并为一串数字, 对这串数字进行100取 模运算, 所得的余数为0~99, 根据这些值来分配流量,
==========
数据化运营
- 您在第 195-195 页的标注 | 添加于 2019年11月19日星期二 上午9:07:22
需要清楚设计一项实验的方法, 并注意其中的细节。 一般来讲, 需要考 虑如下方面的内容
==========
数据化运营
- 您在第 195-195 页的标注 | 添加于 2019年11月19日星期二 上午9:07:55
(1) 实验人群的量级
==========
数据化运营
- 您在第 195-195 页的标注 | 添加于 2019年11月19日星期二 上午9:09:17
AB Test的真正意 义, 不是为了证明新版比旧版差, 而是通过实验来找到新版不足的原 因, 不断迭代新版, 最终让新版优于旧版。
==========
数据化运营
- 您在第 197-197 页的标注 | 添加于 2019年11月19日星期二 上午9:19:04
统计学定义: P值是在假定原假设为真时, 得到与样本相同或者更 极端结果的概率。
==========
数据化运营
- 您在第 197-197 页的标注 | 添加于 2019年11月19日星期二 上午9:19:22
P值代表H0发生 的概率大小, 根据“小概率事件在一次实验中不可能发生”的道理, P<0.05代表可以拒绝相信原假设。
==========
数据化运营
- 您在第 197-197 页的标注 | 添加于 2019年11月19日星期二 上午9:19:37
对于小样本一般采用双侧T检验, 可以通过Excel右键计算, 也可 以通过Python的scipy.stats.ttest_1samp函数直接在报表中计算生成
==========
数据化运营
- 您在第 199-199 页的标注 | 添加于 2019年11月19日星期二 上午9:28:52
GMV, 由流量、 转化率和客单价共同决定。 这里面的营收, 大部 分指营业额, 而非主营业务收入。 比如淘宝, 双11通过平台产生576亿 的营业额, 但是淘宝的主营业务收入可能只有5亿( 平台服务费、 广告 推广费、 交易抽佣等) 。 但电商平台在行为分析时一般使用营业额收入 ( 576亿) , 而非主营业务收入。
==========
数据化运营
- 您在第 199-199 页的标注 | 添加于 2019年11月19日星期二 上午9:36:18
图4-47 单UV收入拆解
==========
数据化运营
- 您在第 201-201 页的标注 | 添加于 2019年11月19日星期二 上午9:37:49
Twyman法则意味着凡是看上去很出人意料的图表, 通常都是因为 数据统计错了造成的。 AB Test是因为一个改进点存在不同的意见, 所以才进行的。 争执 的原因是彼此都不能说服对方, 都有自己“充分”的理由, 但是大家都不 能确定。 如果结果很出人意料, 一定是之前双方都没有考虑到的情况所 影响的, 其实是非常小的概率。 所以在实验结果出人意料的时候, 一般 都需要double check, 通常都是数据计算的问题。 但也有效果非常好的 时候, 那就是上面一条中所提到的。 ·各个产品几乎都不一样, 复制他人的经验往往都没有什么效果。 每个产品没有现成的经验可以直接套用, 但是有很多规则可以学 习, 进而匹配现在的场景来做一些尝试。 ·任何能加速用户响应时间的改动, 都会带来KPI的正向提升。 这里比较常见的是电商类网站, 通常购物决策时间的缩短会导致销 售额的上涨, 这是因为用户对于产品的信任和熟悉。 之前有一段时间很 火热的“一键下单”就是一种极端的例子。 ·单击率是很容易提高的, 但是流失率却很难改进, 千万不要把精
==========
数据化运营
- 您在第 201-201 页的标注 | 添加于 2019年11月19日星期二 上午9:38:00
Twyman法则意味着凡是看上去很出人意料的图表, 通常都是因为 数据统计错了造成的。
==========
数据化运营
- 您在第 202-202 页的标注 | 添加于 2019年11月19日星期二 下午7:30:23
AB Test依靠“控制变量法”, 如果同一时间变量太多, 就无法明确 是由哪个变量造成的影响。
==========
数据化运营
- 您在第 203-203 页的标注 | 添加于 2019年11月19日星期二 下午7:33:04
·魔法数字7。 这是我工作中的一个经验总结, 即一个页面上同时进行的实验最好 不要超过7个。 虽然理论上页面上实验均为正交, 彼此不影响实验效 果, 但实际应用来看, 当实验超过7个, 总会有意外的情况出现, 而这 些现象解释的代价很高。 所以建议在现实应用的情况下, 尽量小于这个 数字。
==========
数据化运营
- 您在第 204-204 页的标注 | 添加于 2019年11月19日星期二 下午7:33:31
互联网数据获取方便, 主要途径为埋点和爬虫。
==========
数据化运营
- 您在第 204-204 页的标注 | 添加于 2019年11月19日星期二 下午7:33:39
互联网数据获取方便, 主要途径为埋点和爬虫。 爬虫目的一般为获取竞争对手的数据, 埋点目 的一般为理解自身数据。 关于
==========
数据化运营
- 您在第 204-204 页的标注 | 添加于 2019年11月19日星期二 下午7:33:42
互联网数据获取方便, 主要途径为埋点和爬虫。 爬虫目的一般为获取竞争对手的数据, 埋点目 的一般为理解自身数据。
==========
数据化运营
- 您在第 204-204 页的标注 | 添加于 2019年11月19日星期二 下午7:35:17
从埋点解决的问题不同, 大概可以将其分为utm来源埋点、 页面PV 埋点、 单击埋点native、 单击埋点hybrid、 业务埋点、 曝光埋点,
==========
数据化运营
- 您在第 208-208 页的标注 | 添加于 2019年11月19日星期二 下午9:23:06
最传统的数据埋点, 一般置于客户端, 调用一套公共接口, 根据调 用次数来计算PV和UV, 根据调用时间差来计算页面停留时间
==========
数据化运营
- 您在第 208-208 页的标注 | 添加于 2019年11月19日星期二 下午9:26:01
注意的是埋点命名规范, 根据使用场景分为两种情况: ·固定场景使用pagecode。 常用于native的主要流程页面, 比如首 页、 列表页、 购物车页、 填写页、 支付页、 完成页, 这些页面可以用英 文字母缩写的形式来直接看出其为哪个页面, 比如“food_list_inland”代 表国内食品商品列表页, 适合品类单一且固定, 主流程页面清晰, 购物 流程相对简单的场景, 可以减少沟通成本, 快速理解数据。 ·快速迭代场景使用pageid。 可以用一串数字代替, 这种一般是使用 hybrid/ReactNative等技术的活动页或经常改版的后服务页面, 符合快速 响应的需要。 (3) 上线责任人 页面埋点一般是开发自己申请pageid, 调用默认接口即可, 没有特 殊情况不需要产品经理参与。 (4) 应用场景
==========
数据化运营
- 您在第 208-208 页的标注 | 添加于 2019年11月19日星期二 下午9:26:19
固定场景使用pagecode
==========
数据化运营
- 您在第 208-208 页的标注 | 添加于 2019年11月19日星期二 下午9:26:28
快速迭代场景使用pageid
==========
数据化运营
- 您在第 209-209 页的标注 | 添加于 2019年11月19日星期二 下午9:30:32
而且为避免异常值干扰, 停留时间在计算时一般取 中位数, 而非平均值。
==========
数据化运营
- 您在第 209-209 页的标注 | 添加于 2019年11月19日星期二 下午9:30:57
页面埋点主要应用在如下两个方面:
==========
数据化运营
- 您在第 209-209 页的标注 | 添加于 2019年11月19日星期二 下午9:31:05
当作数据的基准(benchmark) 。
==========
数据化运营
- 您在第 209-209 页的标注 | 添加于 2019年11月19日星期二 下午9:31:12
通过触发时间差来计算页面停留时间
==========
数据化运营
- 您在第 212-212 页的标注 | 添加于 2019年11月20日星期三 上午8:53:49
比如电商中列表页 常见的筛选button功能, 如果只是筛选button的单击, 可以计 算“c_filter”的单击, 但是如果想知道用户筛选的内容, 就需要在扩展字 段中记录内容, 而这些内容需要产品经理来指明。
==========
数据化运营
- 您在第 212-212 页的标注 | 添加于 2019年11月20日星期三 上午8:57:20
关于埋点数据的管理, 难点在于每次增量更新单击名称, 一般有两 种做法:
==========
数据化运营
- 您在第 212-212 页的标注 | 添加于 2019年11月20日星期三 上午8:57:28
·增量更新。 由开发人员收集每个位置新增的埋点, 录入到数据库 中, 可以自动显示
==========
数据化运营
- 您在第 213-213 页的标注 | 添加于 2019年11月20日星期三 上午8:57:45
全量更新。 通过调试的方式, 取出来单击埋点触发对应的公共接 口被哪些位置调用, 拿到全部数据
==========
数据化运营
- 您在第 214-214 页的标注 | 添加于 2019年11月20日星期三 上午9:01:47
以订单后服务页面为例, 最简单的埋点格式如下:
==========
数据化运营
- 您在第 220-220 页的标注 | 添加于 2019年11月20日星期三 下午7:43:48
其实是开发在 判断触发事件的阈值设置错误, 停留时间超过200ms以上才算单击, 小 于200ms算滑动, 但是在上面那个例子中开发未做限制, 导致出现问 题。
==========
数据化运营
- 您在第 221-221 页的标注 | 添加于 2019年11月20日星期三 下午7:46:17
另外对于开发人 员本身比较关注的KPI, 如页面性能埋点, 包括报错信息、 加载时间、 白屏等, 可以辅助其建立报表来增强对数据的关注度。
==========
数据化运营
- 您在第 222-222 页的标注 | 添加于 2019年11月20日星期三 下午7:47:55
数据分析的本质是发现数据的特征和变化规律, 常用的分析方法 包括多维分析、 趋势分析、 综合评价分析和漏斗分析。 多维分析通过从 细分维度下钻数据定位原因, 趋势分析通过与历史对比找到发展趋势, 综合评价分析整合多指标进行评价, 评价方法包括变异系数法、 熵值 法、 主成分分析法, 漏斗分析用于追踪产品流程及页面转化
==========
数据化运营
- 您在第 222-222 页的标注 | 添加于 2019年11月20日星期三 下午7:48:05
·埋点是用户行为分析的基础, 本章讲述了utm来源埋点、 页面PV埋 点、 native单击埋点、 hybrid单击埋点、 业务埋点、 曝光埋点等在不同场 景下的应用方式, 以及实际操作中埋点常见的问题
==========
数据化运营
- 您在第 223-223 页的标注 | 添加于 2019年11月20日星期三 下午7:50:05
本章将通过某个电商网站的爬虫项目 来详细介绍如何获取竞品数据。
==========
数据化运营
- 您在第 226-226 页的标注 | 添加于 2019年11月20日星期三 下午7:54:02
一般而言, 前端界面展现的数据包括三种加载方式
==========
数据化运营
- 您在第 226-226 页的标注 | 添加于 2019年11月20日星期三 下午7:54:10
HTML标签加载
==========
数据化运营
- 您在第 226-226 页的标注 | 添加于 2019年11月20日星期三 下午7:54:22
2) Ajax异步加载
==========
数据化运营
- 您在第 226-226 页的标注 | 添加于 2019年11月20日星期三 下午7:54:26
1) HTML标签加载
==========
数据化运营
- 您在第 226-226 页的标注 | 添加于 2019年11月20日星期三 下午7:54:57
3) js代码加载:
==========
数据化运营
- 您在第 228-228 页的标注 | 添加于 2019年11月20日星期三 下午7:57:53
HTML是超文本标记语言, 也是网页设计的基本要素, 使用标记标 签来描述网页并构起页面的“骨架”。 爬虫爬取的数据都嵌入在HTML的 标签中
==========
数据化运营
- 您在第 229-229 页的标注 | 添加于 2019年11月20日星期三 下午7:59:29
div: 是一个块级元素, 可以将文档分割为独立的、 不同的部分。 通常与class或id等样式配合使用。 如“<div class="new">文档内容
< /div>
==========
数据化运营
- 您在第 229-229 页的标注 | 添加于 2019年11月20日星期三 下午8:00:05
解析网页内容的方法有很多, 常见的包括正则表达式、 beautifulsoup4、 xpa-th、 json、 HTMLParser等。 这些解析方式可归为三 种解析场景: 其中beauti-fulsoup4、 xpath、 HTMLParser用于结构化的 HTML标签解析, 对于这三种方法来说熟练掌握一种即可。 json用于ajax 加载的字典类型数据的解析。 正则表达是万能的, 可用于任何场景的数 据解析。 当以上两种解析出来的数据还不够“干净”, 不能达到所需目标 时, 可使用正则表达式做进一步的解析。
==========
数据化运营
- 您在第 236-236 页的标注 | 添加于 2019年11月21日星期四 上午9:12:55
常用到的函数包括: re.match(pattern,string,flag=0)、 re.search(pattern,string,flag=0)、 re.findall(pattern,string,flag=0
==========
数据化运营
- 您在第 237-237 页的标注 | 添加于 2019年11月21日星期四 上午9:13:31
一般当爬取 的数据量不大时可选择txt、 csv等文件进行存储, 当爬取海量数据时需 要使用数据库进行存储。 本节除了介绍txt、 csv、 MySQL等存储方式, 还将介绍图片、 音频、 视频等非结构化数据的存储方式。
==========
数据化运营
- 您在第 244-244 页的标注 | 添加于 2019年11月21日星期四 下午7:45:38
对于图片、 音频、 视频等非结构化数据, 在Python中通过urlretrieve 方法可实现将远程数据直接下载到本地
==========
数据化运营
- 您在第 249-249 页的标注 | 添加于 2019年11月21日星期四 下午7:54:54
在翻页的过程 中可以将原网页链接拆分为三个组成部分, 将中间随页面改变而改变的 数值设定为1~100中循环的参数, 然后将三个部分拼接成网页的链接。 通过for循环找到每一页的详情链接,
==========
数据化运营
- 您在第 252-252 页的标注 | 添加于 2019年11月21日星期四 下午7:58:43
Scheduler会将其交给Downloader进行对目标地址发送请求, 得到返 回内容后交给Spider进行解析。 Spider对返回内容通过正则表达式、 Htmlpaser、 lxml等方式解析出所需内容, 分析出的结果有两种: 一种是 需要进一步抓取的链接, 这些链接会被再次传入Scheduler进行发送请 求; 另一种是需要保持的数据, 它们被传送到ItemPipeline中, 在那里对 数据进行后期的存储。 另外, 在数据流动的通道中还可以安装各种中间 件(如代理) , 支持各需求场景
==========
数据化运营
- 您在第 267-267 页的标注 | 添加于 2019年11月22日星期五 下午8:09:12
在这种情况下, 已经被目标网站识别出来为爬虫了, 这种情 况下将使用代理ip访问目标网站。
==========
数据化运营
- 您在第 267-267 页的标注 | 添加于 2019年11月22日星期五 下午8:12:02
有些网址对于爬虫反感, 对其发送的请求一概拒绝。 这时候需要将 爬虫的请求伪装成浏览器, 通过加载http请求中的头文件Headers来实 现。
==========
数据化运营
- 您在第 269-269 页的标注 | 添加于 2019年11月22日星期五 下午8:16:29
ajax(异步JavaScript和XML) 是一种无须重新加载整个网页的情况 下, 就能够更新部分网页的技术
==========
数据化运营
- 您在第 269-269 页的标注 | 添加于 2019年11月22日星期五 下午8:17:46
对应ajax加载的数据, 我们使用常规 的requests或post方式无法请求得到目标网页数据。 此时需要按下F12键 打开浏览器开发者工具, 进行调试, 找出ajax加载数据对应的网页链接
==========
数据化运营
- 您在第 270-270 页的标注 | 添加于 2019年11月22日星期五 下午8:18:20
对于常规发送请求接收响应以get方式发送请求, 当需要通过浏览 器的表单选项向服务器发送带参数请求时, 将使用post方式发送请求
==========
数据化运营
- 您在第 271-271 页的标注 | 添加于 2019年11月22日星期五 下午8:20:03
目前很多App都是基于hybrid模式开发, 以H5形式加载页面。 对于 App上H5形式加载的页面, 可以通过抓包工具(如f iddler) 找到单击页 面时发送的请求链接, 即可得到要抓取目标页面的链接, 将该链接粘贴 到浏览器中打开, 接下来的分析就成了常规页面分析。
==========
数据化运营
- 您在第 276-276 页的标注 | 添加于 2019年11月23日星期六 下午7:24:13
目前平台上积累了包括业务数据、 日志数据、 埋点数据等在内的大 量历史数据, 现运营小组人员想了解付费用户特征以便优化运营策略, 于是委托数据小组人员做一个专题分析。 数据分析人员在接到任务后, 根据对业务的理解, 决定从用户群体、 用户来源渠道、 用户的付费偏好 等角度分析付费用户人群特点。
==========
数据化运营
- 您在第 278-278 页的标注 | 添加于 2019年11月23日星期六 下午7:54:22
随着定义流失周期的时间变长, 用户回访率逐渐下降到某一稳定数值, 该时间长度即为用户流失周期
==========
数据化运营
- 您在第 281-281 页的标注 | 添加于 2019年11月23日星期六 下午8:02:25
从图6-7中可看出新用户客单价小于老用户客单价, 小于活跃用户 的客单价, 由此看来平台对老用户有更大的吸引力, 随着用户活跃程度 的提高, 他们更愿意付出更高的价格在平台上。 我们如何获取新用户, 并将该类用户运营成活跃用户就成为关键。 关于如何获取新用户, 我们 需要进一步分析用户的来源渠道, 从有效渠道做推广并加以维护, 充分 挖掘渠道用户潜力。
==========
数据化运营
- 您在第 282-282 页的标注 | 添加于 2019年11月23日星期六 下午8:08:29
对于用户来源渠道的质量评判, 可以从用户数量和渠道收入两个维 度来衡量
==========
数据化运营
- 您在第 283-283 页的标注 | 添加于 2019年11月23日星期六 下午8:11:03
在日常数据分析项目中, 当遇到营收突然上升或下降的情况, 可以 从订单渠道的角度进行渠道细分, 定位问题所在。
==========
数据化运营
- 您在第 284-284 页的标注 | 添加于 2019年11月23日星期六 下午8:15:03
我们站在用户的角度, 假设产品的专家列表页的展示内容对用户选 择专家, 并成功下单付费会产生某些影响。 接下来挑选前端展示专家的 咨询价格、 接单量、 星级评分作为分析维度, 从单击转化率和付费转化 率两方面来看用户行为, 然后通过提取数据建立模型查看实际效果, 验 证假设是否合理。
==========
数据化运营
- 您在第 291-291 页的标注 | 添加于 2019年11月23日星期六 下午8:24:46
用户分群运营是数据化运营中常见的应用场景, 精细运营要求对不 同价值用户进行区别对待, 而将用户进行分群是区别对待的一种基本方 式
==========
数据化运营
- 您在第 292-292 页的标注 | 添加于 2019年11月23日星期六 下午8:26:08
RFM模型评分方法是传统行业广泛应用的一种用于评价客户忠诚度、 流 失倾向和衡量客户生命价值周期的计算方法, 但该方法作为一种成熟的 用户分析方法, 也广泛应用于互联网行业的数据运营中。 通过一个客户 的近期购买行为、 购买的总体频率以及实际消费数这三类指标来动态展 示一个客户的整体轮廓。
==========
数据化运营
- 您在第 294-294 页的标注 | 添加于 2019年11月23日星期六 下午8:30:11
用户价值的划分包括基于规则的划分方法和基于聚类的划分方法
==========
数据化运营
- 您在第 295-295 页的标注 | 添加于 2019年11月23日星期六 下午8:32:16
有关产品的所有消费订单记录存储在数据仓库的订单表中, 其中记 录了用户的消费时间、 消费金额等基础信息, 在此信息基础上可进一步 挖掘出用户的消费时间段、 消费频率、 消费能力等信息, 进而建立出用 户消费的RFM模型, 对用户价值进行分类, 针对不同价值客户采取不同 营销策略, 实现差异化服务。
==========
数据化运营
- 您在第 300-300 页的标注 | 添加于 2019年11月23日星期六 下午8:39:26
传统的基于规则的划分用户群体方式也存在一些缺陷
==========
数据化运营
- 您在第 301-301 页的标注 | 添加于 2019年11月23日星期六 下午8:39:43
划分用户群体过多。 每个指标从两个等级描述用户, 带来了8个用 户群体, 用户群体的过多导致难以针对每个用户群体制定有效的营销方 式。 ·未从更多维度描述用户特征。 未从用户消费习惯、 物品偏好等角 度描述用户特征, 导致仅能从大致方向推断用户特征, 不能实现对用户 的精准推荐产品。 ·RFM权重确定困难。 各指标权重的确定在不同的分析场景、 不同 的分析人员间有不同的做法, 没有一个统一的确定标准
==========
数据化运营
- 您在第 301-301 页的标注 | 添加于 2019年11月23日星期六 下午8:39:54
划分用户群体过多。 每个指标从两个等级描述用户, 带来了8个用 户群体, 用户群体的过多导致难以针对每个用户群体制定有效的营销方 式。 ·未从更多维度描述用户特征。 未从用户消费习惯、 物品偏好等角 度描述用户特征, 导致仅能从大致方向推断用户特征, 不能实现对用户 的精准推荐产品。 ·RFM权重确定困难。 各指标权重的确定在不同的分析场景、 不同 的分析人员间有不同的做法, 没有一个统一的确定标准
==========
数据化运营
- 您在第 302-302 页的标注 | 添加于 2019年11月25日星期一 下午4:24:55
将每个用户的R、 F、 M三个维度特征数据进行聚类
==========
数据化运营
- 您在第 312-312 页的标注 | 添加于 2019年11月25日星期一 下午4:35:10
平台上付费用户的流失情况做一个专题数据分析, 主要包括识别 平台流失用户, 定位用户流失原因, 预警即将流失用户并提供用户分群 名单给运营人员做重点运营。
==========
数据化运营
- 您在第 313-313 页的标注 | 添加于 2019年11月25日星期一 下午4:35:45
数据分析人员编写HQL脚本提取平台上积累用户历史数据(包括用 户下单购买等业务行为及登录浏览等活跃行为) , 从中找到已经流失的 用户和没有流失的用户, 研究他们在行为特征上的差异。 通过构建基于 决策树的用户流失预测模型, 定量探索用户流失的主要因素, 并识别出 有流失倾向的用户。 后期结合用户研究人员调研得出的用户流失原因, 针对各流失人群采取针对性营销策略进行挽留
==========
数据化运营
- 您在第 313-313 页的标注 | 添加于 2019年11月25日星期一 下午4:37:39
这里引入回 访用户的概念: 即用户满足流失定义, 在定义流失周期内没有访问行为 后再度访问网站或App的用户。 根据回访用户数计算用户的回访率, 即: 回访用户数/流失用户数×100%
==========
数据化运营
- 您在第 313-313 页的标注 | 添加于 2019年11月25日星期一 下午4:37:56
用户流失期限越长, 用户的回访率越 低, 存在一个时间拐点, 在该周期后用户回访率随周期的延长而下降缓 慢, 下降缓慢的这批用户即为平台长期活跃用户, 而该周期即为用户流 失周期
==========
数据化运营
- 您在第 316-316 页的标注 | 添加于 2019年11月25日星期一 下午5:17:12
通过row_number()over函数 将用户最近一次登录日期查询出来
==========
数据化运营
- 您在第 318-318 页的标注 | 添加于 2019年11月25日星期一 下午5:23:42
在该模型中, 基于对业务的理解, 提 炼出11个与用户行为相关的指标, 包括用户基本信息、 访问行为、 消费 行为, 用于区分用户行为的差异性
==========
数据化运营
- 您在第 318-318 页的标注 | 添加于 2019年11月25日星期一 下午5:25:03
35日访问行为包括用户访问次数、 访问天数、 访问时长等, 有流失倾向 的用户访问行为可能会显著不同于正常用户
==========
数据化运营
- 您在第 318-318 页的标注 | 添加于 2019年11月25日星期一 下午5:25:12
用户下单、 付费等 消费类行为可作为用户对平台忠诚度的重要参考指标
==========
数据化运营
- 您在第 319-319 页的标注 | 添加于 2019年11月25日星期一 下午5:25:36
图8-3 用户流失预测训练集指标 图8-4 用户流失预测训练集指标
==========
数据化运营
- 您在第 319-319 页的标注 | 添加于 2019年11月25日星期一 下午5:26:31
图8-3 用户流失预测训练集指标
==========
数据化运营
- 您在第 320-320 页的标注 | 添加于 2019年11月25日星期一 下午5:28:01
由于决策树模型对结果具有很好的可解释性, 有助于 分析人员定位原因, 因此该方法在小样本集的分类、 预测等领域有广泛
==========
数据化运营
- 您在第 321-321 页的标注 | 添加于 2019年11月25日星期一 下午5:29:18
C4.5算法与ID3算法相比, 使用信息增益比 代替信息增益作为划分依据; CART算法是一种分类回归的分割方法, 把当前样本划分成两个子样本, 生成的决策树是解构简单的二叉树
==========
数据化运营
- 您在第 322-322 页的标注 | 添加于 2019年11月25日星期一 下午5:32:44
为防止决策树分支过多而造成过拟合, 使得训练集数据的某些特征 作为全部数据一般特性的情况发生, 在上面程序中通 过“tree.DecisionTreeClassifier(criterion="enrtopy", max_depth=3)”语句将
==========
数据化运营
- 您在第 323-323 页的标注 | 添加于 2019年11月25日星期一 下午5:32:54
决策树的深度设置为3层。
==========
数据化运营
- 您在第 322-322 页的标注 | 添加于 2019年11月25日星期一 下午5:33:55
from sklearn.externals import joblib
==========
数据化运营
- 您在第 322-322 页的标注 | 添加于 2019年11月25日星期一 下午5:34:04
joblib.dump(clf, 'filename.pkl') # 将模型数据写入pkl文件中
==========
数据化运营
- 您在第 323-323 页的标注 | 添加于 2019年11月25日星期一 下午5:41:43
针对分类性能的评价方法包括召回率、 精确度和F1-测度值
==========
数据化运营
- 您在第 323-323 页的标注 | 添加于 2019年11月25日星期一 下午5:46:56
准确率指标,
==========
数据化运营
- 您在第 324-324 页的标注 | 添加于 2019年11月25日星期一 下午5:47:04
公式为(TP+TN) /(TP+FP+FN+TN)
==========
数据化运营
- 您在第 324-324 页的标注 | 添加于 2019年11月25日星期一 下午5:47:20
精确度指标, 分类结果中将正例分为正例的比 例, 公式为TP/(TP+FP)
==========
数据化运营
- 您在第 323-323 页的标注 | 添加于 2019年11月25日星期一 下午5:47:46
准确率指标, 分类结果中将正例分为正例、 将负
==========
数据化运营
- 您在第 324-324 页的标注 | 添加于 2019年11月25日星期一 下午5:47:56
例分为负例的比例, 公式为(TP+TN) /(TP+FP+FN+TN)
==========
数据化运营
- 您在第 324-324 页的标注 | 添加于 2019年11月25日星期一 下午5:48:36
召回率, 分类结果中正例分为正例占总的正例的比 例, 公式为TP/(TP+FN)
==========
数据化运营
- 您在第 327-327 页的标注 | 添加于 2019年11月25日星期一 下午6:01:19
模型持久化存储
==========
数据化运营
- 您在第 327-327 页的标注 | 添加于 2019年11月25日星期一 下午6:01:43
对于模型的存储scikit-learn中提供了pickle和 joblib两种方法, 其中joblib更适合于大型矩阵数据文件的存储。
==========
数据化运营
- 您在第 340-340 页的标注 | 添加于 2019年11月25日星期一 下午7:09:31
一方面从数据的角度对流失用户人群的特征做 了定量分析, 另一方面从用户调研的角度对流失用户的原因分别从定 性、 定量的角度做了深入研究。
==========
数据化运营
- 您在第 343-343 页的标注 | 添加于 2019年11月25日星期一 下午7:11:04
在文本分类问题上的 基本思路是
==========
数据化运营
- 您在第 343-343 页的标注 | 添加于 2019年11月25日星期一 下午7:12:10
首先对待分类的文章做切词处理, 将切好后的词语写入指定的路径 下。 对文本进行分类是需要基于特征的, 拿到数据后怎么抽取具有区分 度的特征是关键的一步。 本案例中使用Bunch方法构建文本特征。
==========
数据化运营
- 您在第 344-344 页的标注 | 添加于 2019年11月25日星期一 下午7:13:09
将步骤1中切好的词组放入词包中, 并扩展成链式结构, 形成 bag of word;
==========
数据化运营
- 您在第 344-344 页的标注 | 添加于 2019年11月25日星期一 下午7:13:26
应用TF-IDF算法计算训练集文档中每篇文章的TF-IDF权重矩 阵; 4) 使用朴素贝叶斯分类方法对训练集数据进行训练, 然后利用得 到的参数对测试集数据进行分类处理; 模型中用到的算法和数据处理技术包括文本分词、 TF-IDF算法、 朴 素贝叶斯分类算法。
==========
数据化运营
- 您在第 344-344 页的标注 | 添加于 2019年11月25日星期一 下午7:13:33
将步骤1中切好的词组放入词包中, 并扩展成链式结构, 形成 bag of word; 3) 应用TF-IDF算法计算训练集文档中每篇文章的TF-IDF权重矩 阵; 4) 使用朴素贝叶斯分类方法对训练集数据进行训练, 然后利用得 到的参数对测试集数据进行分类处理; 模型中用到的算法和数据处理技术包括文本分词、 TF-IDF算法、 朴 素贝叶斯分类算法。
==========
数据化运营
- 您在第 344-344 页的标注 | 添加于 2019年11月25日星期一 下午7:13:48
将步骤1中切好的词组放入词包中, 并扩展成链式结构, 形成 bag of word; 3) 应用TF-IDF算法计算训练集文档中每篇文章的TF-IDF权重矩 阵; 4) 使用朴素贝叶斯分类方法对训练集数据进行训练, 然后利用得 到的参数对测试集数据进行分类处理; 模型中用到的算法和数据处理技术包括文本分词、 TF-IDF算法、 朴 素贝叶斯分类算法。
==========
数据化运营
- 您在第 345-345 页的标注 | 添加于 2019年11月25日星期一 下午7:14:51
使用Python中的jieba库做中文分词
==========
数据化运营
- 您在第 345-345 页的标注 | 添加于 2019年11月25日星期一 下午7:15:10
精确模式: 对句子进行最精确切开, 适合文本分析。 对应 jieba.cut()中的cut_all参数, 默认为False, 即为精确模式; ·全模式: 把句子中所有可以成为词的词语都匹配出来, 对应 jieba.cut()中的cut_all参数, 默认为True; ·搜索引擎模式: 在精确模式的基础上, 对长词再次切分, 适用于 搜索引擎切词, 对应jieba.cut_for_search()方法。 2.文本特征构建
==========
数据化运营
- 您在第 345-345 页的标注 | 添加于 2019年11月25日星期一 下午7:15:22
精确模式: 对句子进行最精确切开, 适合文本分析。 对应 jieba.cut()中的cut_all参数, 默认为False, 即为精确模式; ·全模式: 把句子中所有可以成为词的词语都匹配出来, 对应 jieba.cut()中的cut_all参数, 默认为True; ·搜索引擎模式: 在精确模式的基础上, 对长
==========
数据化运营
- 您在第 345-345 页的标注 | 添加于 2019年11月25日星期一 下午7:15:26
精确模式: 对句子进行最精确切开, 适合文本分析。 对应 jieba.cut()中的cut_all参数, 默认为False, 即为精确模式; ·全模式: 把句子中所有可以成为词的词语都匹配出来, 对应 jieba.cut()中的cut_all参数, 默认为True; ·搜索引擎模式: 在精确模式的基础上, 对长词再次切分, 适用于 搜索引擎切词, 对应jieba.cut_for_search()方法
==========
数据化运营
- 您在第 347-347 页的标注 | 添加于 2019年11月25日星期一 下午7:19:41
在sklearn中调用TfidfVectorizer库实现TF-IDF算法, 并且可以通过 stop_words参数来设置文档中的停用词(没有意义的词, 如助词、 语气 词等) , 使停用词不纳入计算范围
==========
数据化运营
- 您在第 347-347 页的标注 | 添加于 2019年11月25日星期一 下午7:19:54
一个词的重要程度跟它在文章中出现的次数成正比, 与它 在语料库出现的频率成反比
==========
数据化运营
- 您在第 347-347 页的标注 | 添加于 2019年11月25日星期一 下午7:20:10
TFIDF=TF×IDF, TFIDF值越大表示该特征词对这个文本的重 要性越大。 其中TF(Term Frequency) 表示某个关键词在整篇文章中出 现的频率, IDF(Inverse Document Frequency) 表示计算逆文档频率。
==========
数据化运营
- 您在第 348-348 页的标注 | 添加于 2019年11月25日星期一 下午7:21:36
Python中使用jieba.analyse方法 实现对文本关键词的抽取, 该方法同样基于TF-IDF算法
==========
数据化运营
- 您在第 349-349 页的标注 | 添加于 2019年11月25日星期一 下午7:24:45
朴素贝叶斯中对于已知类别, 假设所有的属性相互独立。 就文本分 类而言, 假设词袋中各词组之间没有任何关系, 是相互独立的。 在朴素 贝叶斯分类中: 对于给出的待分类项, 在求出此项出现的条件下各个类 别出现的概率, 哪个最大, 此分类就属于哪个
==========
数据化运营
- 您在第 349-349 页的标注 | 添加于 2019年11月25日星期一 下午7:25:08
贝叶斯分类 中基于先验概率(P(b)) 、 条件概率(P(a|b)) 来计算后验概率 (P(b|a))
==========
数据化运营
- 您在第 349-349 页的标注 | 添加于 2019年11月25日星期一 下午7:26:35
使用Scikit-Learn中的MultinomialNB包实现对文章的朴素
==========
数据化运营
- 您在第 351-351 页的标注 | 添加于 2019年11月25日星期一 下午7:28:06
在这里, 我们使用Python中的jieba工具对文本进行分 词, 同时使用jieba.analyse.extract_tags方法(基于TF-IDF算法) 抽取文 章的主题标签
==========
数据化运营
- 您在第 352-352 页的标注 | 添加于 2019年11月25日星期一 下午7:28:44
对训练集、 测试集文本都进行切词处理,为测试集数据打上主题标签
==========
数据化运营
- 您在第 354-354 页的标注 | 添加于 2019年11月25日星期一 下午7:32:11
为了方便后续生成词向量空间模型, 需要将这些分词后的文本信息 转换成文本向量信息并对象化[1]。 这里使用Scikit-Learn库中的Bunch数 据结构[2], 将文本存储成链式结构
==========
数据化运营
- 您在第 359-359 页的标注 | 添加于 2019年11月25日星期一 下午7:36:26
本 案例针对文本分类, 从精度、 召回率和F-测度值三个角度评价
==========
数据化运营
- 您在第 364-364 页的标注 | 添加于 2019年11月25日星期一 下午7:40:00
从建模流程来看, 对文章分类、 打标签包括4个主要步骤: 1) 文章数据分词处理, 抽取文章的主题标签; 2) 构建文章的词袋模型; 3) 使用TF-IDF计算文章的词空间向量; 4) 使用朴素贝叶斯算法对测试集文章进行分类。 在建模处理数据的过程中, 使用基于Python的开源包Scikit-Learn。 代码已经调试过, 读者可从本书github地址上下载本案例程序, 使用示 例数据进行操作。 从模型执行结果来看, 模型的分类精度达到86.7%, 召回率达 85%。 可基本实现对文章的有效归类。 文本分类有着广泛的应用场景, 如新闻网站包含大量报道文章, 需 要将这些文章按题材进行自动分类(如划分成政治、 军事、 经济、 体育 等) ; 电子邮箱频繁接收到垃圾广告邮件, 通过文本分类可从众多邮件 中识别出垃圾邮件并过滤掉, 以提高用户对邮箱的使用效率。
==========
数据化运营
- 您在第 364-364 页的标注 | 添加于 2019年11月25日星期一 下午7:40:19
从建模流程来看, 对文章分类、 打标签包括4个主要步骤: 1) 文章数据分词处理, 抽取文章的主题标签; 2) 构建文章的词袋模型
==========
数据化运营
- 您在第 364-364 页的标注 | 添加于 2019年11月25日星期一 下午7:40:40
从建模流程来看, 对文章分类、 打标签包括4个主要步骤: 1) 文章数据分词处理, 抽取文章的主题标签; 2) 构建文章的词袋模型; 3) 使用TF-IDF计算文章的词空间向量; 4) 使用朴素贝叶斯算法对测试集文章进行分类。
==========
数据化运营
- 您在第 364-364 页的标注 | 添加于 2019年11月25日星期一 下午7:40:51
从建模流程来看, 对文章分类、 打标签包括4个主要步骤: 1) 文章数据分词处理, 抽取文章的主题标签; 2) 构建文章的词袋模型; 3) 使用TF-IDF计算文章的词空间向量; 4) 使用朴素贝叶斯算法对测试集文章进行分类。
==========
数据化运营
- 您在第 364-364 页的标注 | 添加于 2019年11月25日星期一 下午7:46:40
文本分类有着广泛的应用场景, 如新闻网站包含大量报道文章, 需 要将这些文章按题材进行自动分类(如划分成政治、 军事、 经济、 体育 等) ; 电子邮箱频繁接收到垃圾广告邮件, 通过文本分类可从众多邮件 中识别出垃圾邮件并过滤掉, 以提高用户对邮箱的使用效率。
==========
数据化运营
- 您在第 367-367 页的标注 | 添加于 2019年11月26日星期二 下午2:40:45
建立用户画像所用的 数据源是与用户相关的全部数据, 包括用户的属性数据、 行为数据及内 容数据
==========
数据化运营
- 您在第 367-367 页的标注 | 添加于 2019年11月26日星期二 下午2:44:38
用户画像, 即用户信息标签化, 通过收集用户社会属性、 消费习 惯、 偏好特征等各个维度的数据, 对用户或者产品特征属性进行刻画, 并对这些特征进行分析、 统计以挖掘潜在价值信息, 从而抽象出一个用 户的信息全貌
==========
数据化运营
- 您在第 368-368 页的标注 | 添加于 2019年11月26日星期二 下午2:45:32
用企业产品平台上的内容资源。 可以说, 用户画像已成为流量精准的分 发中心。 10.1.2 用户画像模型及应用场景 用户画像的构建是一个系统性的工作, 需要区分不同的场景和不同 的应用模式。 用户画像建模其实就是为用户打标签。 为用户打的标签分为三种:
==========
数据化运营
- 您在第 369-369 页的标注 | 添加于 2019年11月26日星期二 下午2:46:51
基于统计类的标签、 基于规则类的标签和基于挖掘类的标签。
==========
数据化运营
- 您在第 374-374 页的标注 | 添加于 2019年11月26日星期二 下午7:18:48
具体来说, 用户群体属性画像可应用在两个方面: 一方面, 在冷启 动阶段, 由于缺少更细粒度的用户个性化标签, 可以根据用户群体属性 画像给用户推荐该群体所偏好的商品; 另一方面, 在向用户个性化推荐 商品时, 可根据用户所在群体偏好的物品种类向用户推荐
==========
数据化运营
- 您在第 376-376 页的标注 | 添加于 2019年11月26日星期二 下午7:23:13
Hive是一个建立在分布式存储系统(HDFS) 上的SQL引擎, 通过 将用户编写的Hive SQL语句转化成MapReduce作业实现对数据的查询, 适合应用在大数据集的批处理作业上
==========
数据化运营
- 您在第 377-377 页的标注 | 添加于 2019年11月26日星期二 下午7:27:19
需要从用户属性画像、 用户行为画 像、 用户偏好画像、 用户群体偏好画像等角度去进行业务建模
==========
数据化运营
- 您在第 377-377 页的标注 | 添加于 2019年11月26日星期二 下午7:27:30
经过第一阶段的需求调研和目标解读, 我们已经明确了用户画像的 服务对象与应用场景, 接下来需要针对服务对象的需求, 结合产品现有 业务体系和“数据字典”规约实体和标签之间的关联关系, 明确分析纬 度
==========
数据化运营
- 您在第 379-379 页的标注 | 添加于 2019年11月26日星期二 下午7:30:55
虽然数据分析挖掘人员的工作核心在于标签的业务建模, 但是其中的开发和维护工作, 需要协同产品经理、 运营方和开发方来展 开
==========
数据化运营
- 您在第 379-379 页的标注 | 添加于 2019年11月26日星期二 下午7:31:55
将画像工程划分成很多功能独立的 模块, 再进行迭代、 重构和维护等工作时, 只需要针对具体的模块进行 处理, 不需要重新构建模型。
==========
数据化运营
- 您在第 379-379 页的标注 | 添加于 2019年11月26日星期二 下午7:32:03
从应用角度看, 标签主要可分为两大类——通用类标签和业务类标签
==========
数据化运营
- 您在第 381-381 页的标注 | 添加于 2019年11月26日星期二 下午7:35:12
的建立都是基于个人的用户画像建立的, 即先建立个人用户的画像(根 据每个人的标签与对应权重确定属性值) , 而后建立群体的画像(统计 各属性值在各属性中所占的比例)
==========
数据化运营
- 您在第 382-382 页的标注 | 添加于 2019年11月26日星期二 下午7:36:35
Hive数据仓库较为适合用户画像数据的存储、 管理与分析。 采用数 据仓库技术不仅可以管理海量用户画像数据, 而且可以通过有效的综合 分析进一步挖掘数据的潜在价值
==========
数据化运营
- 您在第 386-386 页的标注 | 添加于 2019年11月26日星期二 下午7:41:06
商城的运营需要解决的两个问题是: 在企业产品线逐渐扩张、 信息 资源过载的背景下如何在兼顾自身商业目标的同时更好地满足消费者的 需求, 为用户带来更个性化的购物体验, 并通过内容的精准推荐, 更好 地提高用户的单击转化率; 在用户规模不断增长的背景下, 运营方考虑 建立用户流失预警机制, 以及时识别出将要流失的用户群体, 采取运营 措施进行用户挽回。
==========
数据化运营
- 您在第 386-386 页的标注 | 添加于 2019年11月26日星期二 下午7:42:19
在本案例中, 可以获取的数据按其类型可分为: 业务类数据、 用户
==========
数据化运营
- 您在第 387-387 页的标注 | 添加于 2019年11月26日星期二 下午7:42:29
行为数据。
==========
数据化运营
- 您在第 393-393 页的标注 | 添加于 2019年11月26日星期二 下午7:46:14
产品经理需要
==========
数据化运营
- 您在第 393-393 页的标注 | 添加于 2019年11月26日星期二 下午7:46:20
运营方需要
==========
数据化运营
- 您在第 393-393 页的标注 | 添加于 2019年11月26日星期二 下午7:46:28
数据分析人员 一方面需要承担画像应用方面的需求, 如根据用户画像做用户的价值分 析、 用户流失预警、 挖掘即将从平台流失的用户, 为业务方提供分析支 持; 另一方面需要承担整个用户画像建模挖掘, 以及协调各业务方推进 用户画像建设的重任
==========
数据化运营
- 您在第 393-393 页的标注 | 添加于 2019年11月26日星期二 下午7:46:39
在画像建模的过程中还有一个重要的参与方, 即 数据开发人员, 他们需要根据数据分析挖掘人员组建好的画像模型进行 开发调度, 保证画像模型数据的准确性和及时性。
==========
数据化运营
- 您在第 394-394 页的标注 | 添加于 2019年11月26日星期二 下午7:47:42
数据分析人员在收集到来自产品方和运营方的需求后
==========
数据化运营
- 您在第 395-395 页的标注 | 添加于 2019年11月26日星期二 下午7:49:25
图10-14 用户画像建设中各参与方的责任边界
==========
数据化运营
- 您在第 406-406 页的标注 | 添加于 2019年11月27日星期三 下午8:26:10
下面对Step2中对用词频共现矩阵方法计算标签之间相似性的方法 做展开讲解。
==========
数据化运营
- 您在第 406-406 页的标注 | 添加于 2019年11月27日星期三 下午8:28:15
可以用 N(a)∩N(b)/sqrt(N(a)×N(b)) 表示a物品和b物品之间的相关性
==========
数据化运营
- 您在第 409-409 页的标注 | 添加于 2019年11月27日星期三 下午8:58:18
我们引入时间衰减这个参数, 即根据发生时间的 先后为用户行为数据分配权重。 时间衰减是指用户的行为会随着时间, 在历史行为和当前相关性方面不断减弱
==========
数据化运营
- 您在第 409-409 页的标注 | 添加于 2019年11月27日星期三 下午9:00:14
在用户画像的应用中, 用户的某些行为会随时间衰减, 而某些行为 不会随时间衰减
==========
数据化运营
- 您在第 410-410 页的标注 | 添加于 2019年11月27日星期三 下午9:01:45
在案例场景中, 用户购 买某类图书的行为权重要比用户添加到购物车、 收藏某类图书、 浏览某 类图书的行为权重高。 具体到某个产品层面需要用户画像建模人员与运 营人员密切沟通, 结合业务场景给不同的行为类型定权重(基本思想是 复杂程度越高的行为权重越大) , 同时需要考虑标签本身在全体标签类 型中的权重属性
==========
数据化运营
- 您在第 410-410 页的标注 | 添加于 2019年11月27日星期三 下午9:02:00
下面介绍主观权重打分结合TF-IDF算法的综合权重计 算方法。
==========
数据化运营
- 您在第 410-410 页的标注 | 添加于 2019年11月28日星期四 上午8:55:36
在案例场景中, 用户购 买某类图书的行为权重要比用户添加到购物车、 收藏某类图书、 浏览某 类图书的行为权重高。 具体到某个产品层面需要用户画像建模人员与运 营人员密切沟通, 结合业务场景给不同的行为类型定权重(基本思想是 复杂程度越高的行为权重越大) , 同时需要考虑标签本身在全体标签类 型中的权重属性
==========
数据化运营
- 您在第 411-411 页的标注 | 添加于 2019年11月28日星期四 上午9:02:48
TF计算公式
==========
数据化运营
- 您在第 411-411 页的标注 | 添加于 2019年11月28日星期四 上午9:02:58
IDF计算公式如下:
==========
数据化运营
- 您在第 413-413 页的标注 | 添加于 2019年11月28日星期四 上午9:08:20
用户标签权重=行为类型权重×时间衰减×用户行为次数×TF-IDF计 算标签权重
==========
数据化运营
- 您在第 414-414 页的标注 | 添加于 2019年11月28日星期四 上午9:10:00
个人用户画像用来刻画用户个人的基础属性、 行为/消费偏好、 使 用频率/时间段、 消费能力等情况
==========
数据化运营
- 您在第 423-423 页的标注 | 添加于 2019年11月28日星期四 上午9:32:10
用户行为标签表在整个用户标签体系中处 于关键位置, 它是计算用户行为标签权重以及用户偏好标签的重要前置 条件
==========
数据化运营
- 您在第 426-426 页的标注 | 添加于 2019年11月28日星期四 上午9:35:48
regexp_extract(parse_url(url,'PATH','.*/(.*?)$',1)) as book_id
==========
数据化运营
- 您在第 429-429 页的标注 | 添加于 2019年11月28日星期四 上午9:37:37
and t1.user_id <> '' --过滤用户id为空的脏数据 and t1.user_id <> '-' --过滤用户id为-的脏数据
==========
数据化运营
- 您在第 441-441 页的标注 | 添加于 2019年11月28日星期四 下午7:47:21
图10-31 用户活跃信息指标
==========
数据化运营
- 您在第 444-444 页的标注 | 添加于 2019年11月28日星期四 下午8:01:51
将Step1建立的标签表通过cross join的方式正交连接, 得到用户—标 签的同现矩阵
==========
数据化运营
- 您在第 448-448 页的标注 | 添加于 2019年11月28日星期四 下午8:07:41
图10-34 群体用户画像表开发流程
==========
数据化运营
- 您在第 454-454 页的标注 | 添加于 2019年11月29日星期五 上午9:05:15
数据验收分上线前数据准确性验收和上线后应用效 果验收两个环节
==========
数据化运营
- 您在第 455-455 页的标注 | 添加于 2019年11月29日星期五 上午9:06:39
数据发布上线后, 数据分析人员需要从数据分析的角度建立相关的 指标, 去查看画像上线后是否有效促进了订单的转化, 是否有效识别出 潜在流失用户, 以提高老用户的复购率。
==========
数据化运营
- 您在第 455-455 页的标注 | 添加于 2019年11月29日星期五 上午9:07:43
总之, 用户画像是需求驱动型项目, 以应用为导向来驱动画像的建 设工作。 从应用的角度来说, 标签的个数不是越多越好, 单纯为追求标 签的个数的庞大而建立成百上千维度的标签会为后期的管理和应用带来 影响
==========
数据化运营
- 您在第 461-461 页的标注 | 添加于 2019年11月29日星期五 上午9:16:22
用户画像的应用场景主要包括业务精细化运营、 数据分析与挖掘、 精准营销、 搜索和广告的个性化定向推送等。
==========
数据化运营
- 您在第 463-463 页的标注 | 添加于 2019年11月29日星期五 上午9:19:02
下面 我们通过一个场景来了解如何对目标客群做多维度分析
==========
数据化运营
- 您在第 465-465 页的标注 | 添加于 2019年11月29日星期五 上午9:22:19
·近两周有x次以上访问A商品主页且访问时长合计在y分钟以上的女 性人群(该策略可筛选出对A商品有一定偏好的人群) ; ·近两周有a次访问A同类型商品主页且访问时长合计在b分钟以上的 女性人群(该策略可筛选出对A同类商品偏好的人群) ; ·在平台上历史付费大于某金额的人群(该策略可筛选有消费能力 的人群)
==========
数据化运营
- 您在第 467-467 页的标注 | 添加于 2019年11月29日星期五 上午9:23:39
本章案例中讲到的用户画像是基于Hive数据 仓库开发的, 数据为n+1天增量更新, 可实现n+1天的个性化推荐。 而基 于Hbase和Strom可以实现根据用户浏览行为的实时推荐。
==========