淘宝通过相似人群用户扩展的思考

原文链接:https://mp.weixin.qq.com/s?__biz=MzAxNDEwNjk5OQ==&mid=2650403806&idx=1&sn=1664e1ca295c99b23844d156010fbd87&chksm=83953bc6b4e2b2d0374d2bbf3275b6c6daf537589469cdefec186219016a9e3fced29d23818d&mpshare=1&scene=1&srcid=&sharer_sharetime=1566385203203&sharer_shareid=b395a997417f0cc8d103e8415247369c#rd

用户增长团队主要是与运营和产品相协作,实现对各个业务领域对用户群特征的深入理解和洞察,从而在更大的新数据(可能是其他相关或者类似业务上的数据)上挖掘出潜在的本业务的新用户。
(0)数据准备
搭建数据平台,包含用户基本特征(性别,年龄,收入,位置,人生阶段等);利用用户评论等文本信息挖掘用户倾向;并利用分享,转发等挖掘用户之间关系信息。
(1)生成种子用户。
首先,运营根据业务经验,将业务需求转化为标签,然后根据标签划分出已有的用户作为种子用户。这些种子用户是在特殊场景下收集到的,对商品,服务需求和兴趣一致。数量比较少。根据已有标签体系,为所有用户打上标签。没有标签的用户通过GBDT生成。
(2)生成扩展用户。
首先对用户文本信息进行向量化(doc2vec),然后进行聚类,提取聚类中心向量。根据用户文本所在聚类得到用户价值倾向对向量表达。(具体实现不明,推测为用户性格,是否关注产品体验,等进行文本信息特征提取,随后进行聚类);
其次,使用图模型对用户关系数据进行转化,利用node2vec得到用户关系网络图向量化表示。(这个用户关系网络图对作用和表示不明);
最后和用户基本特征进行拼接,得到用户组合特征。多特征向量集(User Vector Set,UVS)。这么做是因为仅仅使用用户的属性特征和标签特征进行人群扩散过于粗犷,人与人的兴趣差异不光光是兴趣标签决定的,往往和时间、环境、友人等其他的因素息息相关。各个维度当特征做好归一化。(特征更加细粒度化,同时是否做了主成分分析不明)。
多特征向量聚类并存库(存聚类中心和对应ID)。(具体聚类算法和实现细节不明,用户关系数据聚类有点不明作用)生成扩展用户群特征。扩展用户应该是淘系所有产品线用户。
(3)使用方法,当运营在平台上传种子用户ID后,根据种子用户ID判断其是否在UVS中,将存在的也通过以上方法和数据生成对应聚类中心。通过相似性度量方法找到与种子人群类簇中心距离最小的 topN 个扩展用户类簇,其中高纬度数据使用余弦相似度效果较好。(种子用户和扩展用户各生成多少个聚类中心不明)。将这N各用户类簇的用户ID输出。
(5)分群评价指标。覆盖度和相似度。
覆盖度:对种子人群进行随机采样,切分为 A、B 两个人群, A 人群通过相似人群挖掘算法得到扩散后的人群 C ,覆盖度 =B∩C/B ,覆盖度表示扩人群中人群 B 的占比,考验的是算法通过人群 A 对人群 B 的“恢复”能力,具体实验中通过将种子人群进行 5 倍扩散后根据相似人群的覆盖度是否有提升来对模型进行迭代优化。人群覆盖度指标并不能完全表征相似人群与种子人群的的近似程度,需要配合人群相似度一起评估。
相似度:人群相似度用来控制人群规模。首先分别计算扩散人群到种子人群聚类中心的 cosine 距离;其次进行归一化。人群相似度基于扩散人群与种子人群间的距离计算,能够表征扩散人群与种子人群的相似程度。
(6)进一步扩展
特征表达优化;根据业务的人群划分丰富;特征丰富;效果反馈和迭代。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,076评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,658评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,732评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,493评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,591评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,598评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,601评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,348评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,797评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,114评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,278评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,953评论 5 339
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,585评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,202评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,442评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,180评论 2 367
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,139评论 2 352

推荐阅读更多精彩内容