用户画像的搭建与应用

接着上篇《如何搭建用户成长体系？》，用户画像作为用户成长体系中的重要一环，如何精准对用户进行分类，将资源按需分配呢？如何对用户进行智能推荐？如何做到精准营销。做到千人千面？这就是本节所要梳理的知识，enjoy~

本节包括3部分内容：

1.什么是用户画像

2.如何搭建用户画像

3.用户画像的应用

1.什么是用户画像？

定义：用户画像就是将用户标签化

例如，你在淘宝上经常购买女装或者高跟鞋，并且都是在夜晚22点-2点购买，而且经常购买价格在200元以下的商品。用户画像经过计算会给你打上下面几个标签：女性，夜猫子，低消费能力

用户画像的用户之地

1）通过用户画像，产品和运营可以快速透彻的了解用户。

我的用户是谁，他们是男是女，多大年龄，他们喜欢什么，他们平时在哪里活跃，他们使用我的产品的习惯是什么

2）精准营销（千人千面，智能推荐）

商品精准推荐，根据用户以往的浏览记录预测用户喜好，并进行推荐；精准广告；根据用户属性推荐不同类型的广告内容；其他类型服务类型

资讯、视频、读书、餐馆

3）数据挖掘

根据同类的行为习惯挖掘新的需求，通过用户的行为数据挖掘需求，比如分析用户的长活跃地点，识别用户群的活跃范围，分析用户的登录时间，识别用户的常活跃时间

2.如何搭建用户画像

2.1如何搭建用户画像

包括5个步骤：

1）建立标签体系

2）数据字典概要设计

3）数据采集

4）数据建模

5）数据校验

第一步明确目的设计标签体系

用户画像的标签体系设计，需要从以下几个方面着手

a.从需求出发

要想清楚搭建用户画像的目的，所使用的场景

b.定性与定量方式

定量标签：活跃时间、性别、职业、年龄

定性标签：消费能力、活跃度、兴趣

c.按产品属性：

用户的整体标签；基础信息（手机号、QQ、邮箱、性别、年龄、学历、住址）；行为数据（登录时间，访问次数，登录地点）

兴趣信息（浏览信息，购买信息，收藏信息，购物车信息）

付费能力（购买数据，账户余额，消费记录）

基础设备标签：

设备信息（设备ID，型号），网络信息（网络环境：3G，4G，wifi），LBS（地理位置）

行为标签：

活跃时间（活跃时间段）、活跃地点（国家，省份，城市，商圈）

社交标签

1）社交基础数据

好友数，消息发送量，活跃天数

2）好友关系链

每个人的社交圈属性

产品标签（因产品而异）

1）电商平台

用户购买能力，购买习惯，喜好

2）O2O平台

门店信息，订单分布，配送数据，LBS信息

3）健康平台

就诊信息，病历，活动数据，个人基础信息

4）游戏平台

登录数据，付费信息，活跃时长

第二步标签数据字典概要设计

目的：决定数据采集拿什么数据，决定详细建模的量化，初步的想法

步骤：

1）确定标签

根据自己的需求特点设计符合自己产品特点的标签体系，解决实实在在的问题

2）统计口径

需要综合考虑标签的需求出发点，数据的可采集性，以及数据的统计难度

3）统计周期

按照需求的出发点，来设计统计的周期，不同的指标需要的更新的周期会有所不同

字典可视化

第三步采集数据

解决的是数据从哪里来问题。用户画像系统框架如下图所示：

a.数据埋点

通过在产品中埋点获取数据，这是最准确也是最真实的用户行为数据，用户的行为数据，兴趣数据等都是来源于此。

b.后台数据

用户的基本信息（性别，年龄等），订单数据，好友关系链，消息发送等数据多来源于后台的数据库

c.外部数据

有一些数据可能我们并拿不到，需要借助第三方的数据提供，比如征信数据等。

总结：数据的采集是用户画像搭建的基础，有了数据我们才可以做数据分析，所以梳理清楚数据的来源是很重要的一环。

注意要点：

1）准确性

数据的准确性需要优先保证的，数据错了，后面的分析也就谈不上了

2）真实性

真实性是指数据的展示是真实有效的

3）可采集

有很多数据可能是我们想要的，我们要让数据系统化，可采集，来帮助完成用户画像的数据完整性

4）效率

数据的采集效率也是很重要的一环，当然这一块一般需要技术来保证，有一些数据如果采集的不够及时可能失去了它的意义

5）时效性

时效性跟上面的效率有一些区别，很多数据有它的时效性，比如年龄，公司信息等

6）价值密度

价值密度是一个比较产品化的评估过程，不同的产品对不同的数据的价值密度会不一样，比如电商类对订单类的价值密度就会大一些

数据可视化

第四步数据建模（最耗时）

定义：所谓的数据建模就是我们如何拿到我们想要的标签，可以通过数据库直接获取，可以通过算法获得，也可以通过统计分析方法获得，不尽相同。数据标签可分为3大类：

1.可直接获取的标签

一些标签我们可以通过数据库，或者外部数据，或者简单的计算获得，比如：用户基础属性标签，设备信息，地域这些标签可以直接获得，不需要复杂的模型。

设备数据：

设备型号，设备品牌，网络环境

基础信息：

手机号，QQ，邮箱，性别，年龄，学历，住址

活跃地点（IP+IP库）：

省份，城市，商圈

2.统计分析计算标签

一些标签我们需要一些简单的统计分析计算而得，不过这一部分也是相对来说比较简单的，只不过需要一些统计脚本计算，主要集中在行为数据标签，比如：消费数据，订单量，活跃时长，活跃时间段等。

社交行为数据：

活跃用户数，消息发送数，登录天数

用户行为数据：

活跃时间段，活跃天数

消费行为数据：

消费金额，消费频次，平均消费金额

3.兴趣标签模型（最重要）

什么用户

通过埋点或数据库获取的方式，获取用户的唯一标识，识别用户

什么时间

事件发生的时间点，以及持续时间。

这两个同时决定了用户对这一事件的兴趣度，不同的事件在不同的时间点会给出不同的权重值，不同的事件对于持续的时长也会给出不同的权重值。

什么地点

事件发生的地点

什么事件

事件是主角，目标标的，他有很多可能性，可能是一个具体的物品，也可能是一个搜索词。

事件可能是一个物品，也可能是一个搜索词，也可能是一个资讯的标题，也可能是一篇文章，通过文本挖掘可以实现对内容中的关键词提取，从而形成标签，这也是定性标签的来源。

案例一：小王在某东上买了一块Casio的电子表，我们可以从中提取出一些关键标签：

腕表，Casio，电子表，颜色，钢质表带

案例二：小李在某条上浏览了一条标题为：某演员深夜约会某帅哥，我们可以从中提取出一些标签：

娱乐，某演员

什么行为

用户对物品做了什么行为，不同的行为反应用户的兴趣维度

行为对打分影响至关重要，不同的行为会给予这个标签不同的分值，因为不同的动作显示了用户对目标标的兴趣度不同，举例：

电商：支付-放入购物车-收藏-浏览-搜索

资讯：分享-浏览

标签的分值=衰减因子 X 行为权重 X 其他权重（渠道，地点，物品数量）

标签的层次

从标签的层级来看，我们可以从这一角度对标签的建模进行区分：

第一层：基础标签层

这一层的标签是可以通过数据库直接获取或者通过统计分析的简单方法获得，他们的计算相对简单，同时作为第二层标签的基础，比如：性别，年龄，活跃天数等；

第二层：计算标签层

在第一层标签的基础之上，根据需求，进行二次的计算，这里就需要比较复杂的算法介入了，通过对用户进行聚类，预测，或者文本的分析，获得更加贴近用户需求的标签，多是兴趣类标签；

第三层：应用层标签

这一层标签可能需要对第一或第二层的标签结合进行计算，也可能直接来源于前两层标签，目的是这些标签用户用于对应用方负责，按照应用方的需求产生的标签。

数据建模-常用的技术手段

文本挖掘

文本挖掘是指从大量文本数据中抽取事先未知的、可理解的、最终可用的知识的过程，包括：文本特征提取、信息检索、自然语言处理、文本挖掘、文本分类、文本聚类、关联分析等。

聚类算法

聚类分析也称群分析，它是研究（样品或指标）分类问题的一种统计分析方法，同时也是数据挖掘的一个重要算法

预测算法

预测算法是通过历史数据，以及算法模型预测未来的结果的一种方法，比如我们常说的线性回归就是一种比较常用的预测算法

人工介入

其实多数的用户画像都需要人工经验的介入，并不是完全的算法计算，在参数的调整以及一些常量的设定上，通过分析方法获取一些经验值来的更加有效。

第五步数据校验

1.测试集（定量）

对于事实性的标签，可以通过测试集来进行校验。

通过建立已知数据的测试集来进行事实数据的校验，事实数据指的是：性别，年龄，学历，订单量，付费金额等

2.过程校验（定性）

对于非事实性的标签，比如兴趣。

需要通过过程的校验来解决数据的校验问题，检查整合处理过程的代码以及数据来源正确性，可以通过多人交叉校验的方式，效果会更好。

3.A/Btest

A/Btest作为一项标准的对效果进行校验的方法，适用的范围比较广泛，其实并不是严格意义的数据校验，只是对效果的校验，但是说到底用户画像的目的最终服务的也是效果，所以也可以。

3.用户画像应用

1、腾讯社交的广告

腾讯社交数据提供超过200多种特征和行为标签，包括：

地理位置

基本信息（年龄，性别，上网场景（公共场所，家庭，公司，学校）等信息进行定向）

用户状态（根据学历，婚恋，生活状态，商业兴趣（旅游，汽车，金融）等状态定向）

用户行为（根据上网设备，APP行为（活跃，消费）付费用户，应用安装等条件定向）

消费能力（根据消费水平，居住社区价格，游戏内付费水平扥行为定向）

自定义用户（根据自身需求定制投放广告，将广告投放到指定受众眼前，或将他们排除在外）

2.数据报告

3.运营分析

用户画像是一个不断打磨优化的过程

标签的设计时这几个步骤循环迭代的过程，需要不断的循环修正，没办法一条线下来，也不可能一蹴而就，是一个循环往复的过程，需要我们不断的用数据和效果去校验，需要耐心。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 218,525评论 6赞 507
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 93,203评论 3赞 395
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 164,862评论 0赞 354
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,728评论 1赞 294
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,743评论 6赞 392
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,590评论 1赞 305
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,330评论 3赞 418
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,244评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,693评论 1赞 314
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,885评论 3赞 336
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 40,001评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,723评论 5赞 346
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,343评论 3赞 330
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,919评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,042评论 1赞 270
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,191评论 3赞 370
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,955评论 2赞 355

用户画像的搭建与应用

1.什么是用户画像？

2.如何搭建用户画像

第一步 明确目的 设计标签体系

第二步 标签数据字典概要设计

第三步 采集数据

第四步 数据建模（最耗时）

第五步 数据校验

3.用户画像应用

推荐阅读更多精彩内容

第一步明确目的设计标签体系

第二步标签数据字典概要设计

第三步采集数据

第四步数据建模（最耗时）

第五步数据校验