2019-04-11

希望在某一段时间结束后，自己可以搭建推荐系统的后台，加油，不要偷懒。

用户画像流程:

研究目的——确定目标用户——用户抽样——数据整理——数据整理统计挖掘——结论展示

数据检查：极端值处理，心理学研究把超过2个标准差之外的值剔除。

缺失值处理包括：没有观测到的和有明显错误的。

数据分组：例如：年龄分段、选择处理等。

根据数据本身结构特征对数据进行分类的方法——聚类分析，通过聚类分析，可以把数据分成若干个类别，，使得类别内部的差异尽可能小，类别外部差异尽可能大。

每个用户角色之间是独特的，彼此之间很少有相似性。

用户角色的数量要足够少，以便设计团队能记住每个用户角色的姓名，以及其中的一个主要用户角色。一个产品，一般最多满足三个角色需求。

构建出来的用户角色要可以作为一种实用工具进行设计决策。

我们根据用户的目标、行为和观点的差异，将他们区分为不同的类型，然后每种类型中抽取出典型特征，例如：一些个人基本信息、家庭、工作、生活环境描述，赋予一个名字、一张照片、场景等描述，就形成了一个具体的典型用户画像。

一个产品通常会设计3~6个角色代表所有的用户群体。

在产品研发过程中，确定明确的目标用户至关重要，不同类型的用户往往有不同甚至相冲突的需求，我们不可能做出一个满足所有用户的产品。

完善用户画像，我们需要做的事情主要是：

（1）结合真实的数据，选择典型特征加入到用户画像中。

（2）加入描述性的元素和场景描述，让用户画像更加丰满和真实。

（3）将用户画像框架中的范围和抽象的描述具体化，比如，将员工数“20人以下”改为“15人”。

（4）让用户画像容易记忆，比如用名字、标志性语言、几条简单的关键特征描述，都可以减轻读者的记忆负担。

仅仅把用户画像创建出来，而没有让其参与到产品设计开发、推广运营等决策中去，是没有意义的。

用户研究的价值，最终还是要体现在产品的应用上，一方面是产品经理、设计师在进行视觉设计、交互设计等方面进行参考。另一方面，更重要的是将用户角色落实在实际的产品中，用数据做产品在当前热议大数据的时代越来越受到重视。

数据建模的方法太多了，神经网络、遗传算法、蒙特卡洛算法、聚类分析、关联算法等等。

目前的产品应用中，最常见的是用户分类、各种推荐算法、防流失模型等。

定量+定性用户画像方法与流程：

用户画像是一种目标用户的人物原型，它不仅可以快速了解用户的基本信息并快速归类，并且可以进一步精准的分析用户行为习惯和态度偏好。用户画像虽然是用户的虚拟代表，但必须基于的是真实用户和真实数据。

1.明确研究目的：我们尝试去做一个用户画像，往往是基于以下情景：

确定目标用户，将用户根据不同特征划分不同类型，确定目标用户的比例和特征；

统计用户数据，获得用户的操作行为、情景偏好以及人口学等信息；

根据目标用户确定产品发展相关优先级，在设计和运营中将焦点聚焦于目标用户的使用动机与行为操作；

方便设计与运营，据用户画像提供的具体的人物形象进行产品设计和运营活动，也比仅有模糊的、虚构的、或是有个人偏好的用户形象更为方便和可靠；

根据不同类型用户构建智能推荐系统，比如个性化推荐，精准运营等等。

从用户画像的使用情境也可以看出，用户画像适用于各个产品周期：从潜在用户挖掘到新用户引流，再到老用户的培养与流失用户的回流，用户画像都有用武之地。

2.明确研究方法：

定性用户画像：1.定性访谈

2.用户类型细分

3.构建用户画像

定量用户画像：1.用户群细分假设

2.数据收集+聚类分析

3.构建用户画像

但是，不论是选择定性还是定量的方法，都首先需要对用户类型有一个基本“量”的了解，否则在选用样本时就会产生偏差。那么如何通过定量的方法（聚类）构建用户画像呢？

3.确定目标维度和数据：

选择哪些指标？用户指标的选择，可以是封闭性的，也可以是开放性的。在封闭的指标中，用户群的类型是固定的，所有用户类型构成了全部的用户整体，比如轻度用户、重度用户；男性用户、女性用户。但是这种划分方式维度可能过于单一，无法体现用户群的复杂性，并且不利于指标体系的补充改进和迭代，因此在研究中我们更倾向于采用开放性的分类方式，可以根据不同应用场景变更或者拓展指标。

开放式的指标体系包括用户人口属性、行为操作属性、态度偏好属性、用户价值属性等，用户的行为和态度是不断变化的。

其中，注意一点，封闭式指标中的人口属性指标是相对稳定的静态数据。通常，从我们的经验和掌握到的用户信息，我们对用户的年龄结构、性别比例都已经明确，如果在聚类中人口属性指标对聚类干扰较大（共线性较强），或在模型中作为因子影响过高，可以在聚类时重点关注用户的行为操作和态度偏好等指标，聚类成功之后再比较每一种用户类型的人口学背景信息等。

如何获得和筛选数据？

在确定指标后，我们需要确定指标的来源。有些数据是后台行为日志可以记录到的，有些是需要用问卷调查的。一般而言，行为层面的指标可以用后台日志，更加准确。而态度层面的则要用问卷来获取。两种数据渠道各有优缺点：

埋点：打个简单的比方，就是在你的应用中增加监控点，这样从后台中可以清楚知道用户在这个监控点做了什么事情等等。

理论上，所有的数据都可以通过问卷获得。但是，为了最优化研究效果，我们采取了问卷+行为日志结合的方式。在发问卷的同时，抓取了用户的设备号和ID，以匹配后台数据。

4.尝试与评估用户聚类：

把用户分成几种类型？

聚类分析是探索性的研究，他根据指标或者变量之间的距离判断亲疏关系，将相似性的聚为一类，因此会出现多个可能的解，并不会给出一个最优的解，最终选择哪一种方案是取决于研究者的分析判断。

把用户分的类型越少，颗粒度就越粗，每种类型之间的特征就不会很分明；用户类型越多，颗粒度也就越细，但复杂的类型划分也会给产品定位和运营推广带来负担。因此，细化颗粒度不仅需要定量的聚类来调整，还需要结合产品经验来验证。同时，因为采用的是开放性的指标体系，我们不可能像区分“男性用户、女性用户”那样清楚地知道用户类型的数量，因此，在用数据进行用户画像时，最关键的一步就是确定把用户分成几种类型。

如何选择合适的聚类方法？

前明确分类数目，并对均值进行定义。只能对样本聚类，不能对变量聚类，样本的变量需是连续性变量。

层次聚类可以对变量聚类，也可以对样本聚类，可以是连续变量也可以是分类变量。能提供多种计算距离的方法，但是计算复杂度高，适用小数据量，我们需要结合项目的具体情况，包括项目周期、数据形式、数据量、聚类特征等等来确定聚类方法。

最后通过尝试不同的聚类数、距离算法和分类方法，我们可以根据以下几点来确定分类的数量：

1.依据产品经验，不同产品的典型用户不同

2.根据已有的用户研究以及相关研究结论

3.根据具体的分类效果确定

4.根据层次聚类“步数——距离”拐点

聚类效果好坏的评估可以从聚类中心之间的距离、组间与组内的方差以及群组数量之间的比例是否符合产品特征、比例是否协调以及划分的类型对产品是否有意义等方面去评估。

5.把数据还原成用户：

在已经得知了分类结果并且分析得出了每一类用户在各项指标上的特征之后，构建用户画像的工作也就好比在一副骨架上填充血肉。一方面，我们可以直接利用获取的数据，找到具有显著特性的信息，赋予到用户身上。比如，第一类用户60%使用IOS系统，而其他三类均不超过20%，我们就可以将第一类用户抽象为一个平时使用iphone的人。

但是，把数据还原成用户本身，用户也需要遵循几个原则，画像（persona)意味着一个令人信服的用户角色要满足七个条件：

通过定量化的调研可以快速对用户建立一个精准的认识，对不同数量、不同特征的用户进行比较统计分析，在后期产品迭代改进的过程中可以将用户进行优先级排序，着重关注核心的、规模大的用户。但是，依靠数据这种偏定量的方式建立的用户画像依然是粗线条的，难以描述典型用户的生活情景、使用场景，难以挖掘用户情感倾向和行为操作背后的原因和深层次动机。因此，如果有足够精力和时间，后续可以对每类用户进行深入的访谈，将定量和定性的方法结合起来，建立的用户画像会更为精准和生动。

vv：为vido view的简写，即中文意思为视频播放次数，为当前衡量视频网站效果如何的参数之一。

uv：是指通过互联网访问、浏览这个网页的自然人。

用户画像兴趣偏好：统计用户的行为，计算用户的偏好，主要针对已经打上了类目和标签的视频。

模型：视频评分模型（基于用户的观看，点赞等行为对视频综合评分），用户偏好模型（统计用户喜欢的类目以及标签），以及用户-视频-行为评分模型。

标签通常是人工定义的高度精炼的特征标识，如年龄段标签（儿童、青年），地域标签（北京、上海）。语义化和短文本是标签呈现出的两个重要特征，其中语义化特征赋予标签一定的含义，使人能够很容易理解这些标签；短文本特征使标签本身无须再做过多文本分析等预处理工作，这也方便了计算机的标签提取、聚合分析过程。

标签化是用户定性画像的核心，标签化的用户画像既方便人们的理解，又方便计算机分析和程序化处理。标签化之后，首先计算机可以自动完成分类统计功能。其次，计算机也可以根据这些标签进行深度挖掘。例如，可以将标签信息与用户的视频浏览、点播行为数据相结合，就可以进一步预测用户的喜好。

模型：

1.用户行为模型

1.用户对单个视频所有行为进行综合评分：生成（用户—视频—评分）的二维矩阵。

2.行为得分权重计算方法如下：

有效vv（进度>5%）：评分=1*min(5，进度）

评论：评分=3

点赞：评分=2

分享：评分=4

3.最终针对单个视频，如果用户对其产生多个行为的时候，最终评分为所有事件得分中最高的评分。

4.评分模型是用户兴趣偏好的和基于视频的协同过滤的基础。

2.用户模型：

1.用户基本信息：id，视频发布数，点赞数，评论数等。

2.用户兴趣：基于类目和标签（tag)的统计。

短期：通过昨天的用户行为统计得出的类目和标签的兴趣

长期：近30天的用户行为统计得出的类目和标签的兴趣

3.用户视频行为历史：保留近5000评分记录。

4.推荐历史：保留最近500条推荐历史。

5.协同过滤的结果：结合用户的最近产生评分的视频以及视频与视频之间的相似度（基于协同过滤）每天离线计算出最多50条推荐结果。

3.视频模型：

1.基本信息：发布者，类目（可以为空），标签（可以为空），观看数，评论数，点赞数，分享数，完拨数，时长，音乐id，话题Id（可以为空）。

2.曝光数：基于推荐结果的统计，每推荐一次算一次曝光。

3.最近三天最热门的话题聚合。

4.最近三天最热门的音乐聚合。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 212,816评论 6赞 492
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 90,729评论 3赞 385
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 158,300评论 0赞 348
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 56,780评论 1赞 285
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 65,890评论 6赞 385
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 50,084评论 1赞 291
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 39,151评论 3赞 410
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,912评论 0赞 268
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 44,355评论 1赞 303
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,666评论 2赞 327
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,809评论 1赞 341
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 34,504评论 4赞 334
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 40,150评论 3赞 317
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,882评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,121评论 1赞 267
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 46,628评论 2赞 362
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 43,724评论 2赞 351