计算广告中的lookalike是如何实现的?

什么是lookalike

lookalike算法是计算广告中的术语,不是单指某一种算法,而是一类方法的统称。其目的就是为了实现人群包扩充。

简单场景

广告主需要对100w人投放,但是,从选取的基础数据包中,只有30w,那么如何满足100w的投放需求,这时,就需要通过lookalike的方式进行扩充,既要保证人群数量,又要确保人群的相似。

如果只是简单的从公共池中选取70w,完成100w的匹配,很有可能出现无效用户。例如:高级消费品,尽可能的投放给中高级消费,且具有该品类偏好的人群。

如何进行lookalike

第一种,显式定位,广告主根据标签进行人群选择。

这种方式,最为简单,高效。广告主通过用户画像标签,筛选性别,年龄,品类偏好等。可以直接快速达到人群包提取目的。

但是,这种方法,又具有一定局限性,未必男性就不关心女性用品,也未必食品偏好的人群,就不关心护肤用品。标签的产出,本身基于用户行为,但单纯标签筛选,并不能把潜在相关用户提取出来。

计算广告中的lookalike是如何实现的?

因此,就需要采用第二种方法。

第二种,隐式定位,通过机器学习的方法,对种子用户进行建模。

以30w人群,扩展100w为例。我们需要将30w用户的共有特征提取出来,内容包含性别,学历,年龄,职业,常住地,购买力,RFM分值,最近浏览加购信息等。该人群特征提取完成之后,成为种子包,标记为正样本

接下来,我们需要有一个基础用户包,用于70w的人群扩展,可以是全量数据,可以是近三个月,近一个月的活跃用户,也可以是品类偏好用户,数据内容取决于具体业务。数据规模,取决于扩展人群数量。需要扩展70w,基础包数量,可以是300w,500w,或者更多。当然了,不是越多越好,数量越多,意味着后期模型转换耗时会更长。

假设基础包用户500w,我们需要从500w中随机抽取30w用户,标记为负样本

接下来,就是一串的特征处理,StringIndexer,VectorAssembler,OneHotEncoder,QuantileDiscretizer。总是,就是将离散型字符变量整数化,离散型整数变量编码,以减少不同类别之间的距离差,把连续性变量进行分箱,调整为离散型变量,以减少距离差。离散化、归一化、等分位,都是常用的特征处理手段,spark ML中提供了一堆。。。

特征处理完成后,进行模型训练,这里的分类算法,可以是LR,SVM或是其它,不同厂的做法都不相同。效果好就行。

模型训练完成后,重要环节,需要对500w的基础包进行transform,模型会对500w数据中的每条数据进行分类,并预测概率值。从500w数据中,抽取正样本,并按照概率从高到低排序,取出top 70w即可。

最后,将30w人群与70w人群进行合并,标记100w的扩展人群包,用于线上投放。

计算广告中的lookalike是如何实现的?

可能有读者已经意识到,直接把基础包中,随机抽取30w标记为负样本,也许不妥,有可能存在与种子包人群高相似用户。解决这个问题,只有一个办法,就是多跑几次。先以第一次的模型,对30w基础包用户进行分类,产出top,重新修正标记,再从公共池中,抽取等量用户补充,不断迭代,最终会训练一个理想模型出来。

使用技术

机器学习包很多,可以是基于python的sklearn,亦可是spark的mllib、ML,但笔者推荐pyspark。原因是python在数据处理上异常高效,但是无法解决分布式处理的问题,python代码只能在单机上处理。而spark本身基于分布式处理,速度上显然要快,但是spark自身支持的语言scala,又没有类似numpy,pandas这样的高效类库。因此pyspark就是不二之选。

后记

在机器学习中,模型的好坏,极大程度上取决于特征的选取及处理。算法上,可以采用一般的分类算法,亦可采用深度学习中的多层神经网络相关算法。总之,方法很简单,需要的是,对模型进行不断的优化。

以上有任何问题,可留言,或关注同名公众号“IN科技”。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 211,743评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,296评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,285评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,485评论 1 283
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,581评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,821评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,960评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,719评论 0 266
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,186评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,516评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,650评论 1 340
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,329评论 4 330
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,936评论 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,757评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,991评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,370评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,527评论 2 349

推荐阅读更多精彩内容