推荐系统(一)LR,FM,FFM,Wide&Deep,DeepFM,ESMM

一、LR

(一)简单总结

  • 是广义线性模型,每个特征都是独立的,如果需要考虑特征与特征之间的相互作用,需要人工对特征进行交叉组合。
  • 非线性SVM可以对特征进行核变换,但是在特征高度稀疏的情况下,并不能很好的进行学习。

(二)FTRL


二、FM

Rendle S. Factorization Machines[C]// IEEE International Conference on Data Mining. 2011.

(一)简单背景介绍

  • 解决数据稀疏的情况下,特征怎样组合的问题。
  • 对于一阶参数的训练,只要这个样本中对应的变量不为0,而二阶的参数必须两个变量同时不为0才可以。在数据稀疏时,很多特征交互是模型无法训练的。
  • LR是需要特征工程的,SVM在稀疏场景下无法用。
  • 通过参数矩阵分解,打破了特征组合之间的独立性,使一个组合特征的学习可以受到其他相关组合特征的帮助。
  • 原本预测公式的复杂度:O(kn2),可以通过转换变为 O(kn)。

(二)公式推导

预测公式

O(kn2)变O(kn)

随机梯度下降,O(kn)

三、FFM

2016年发表在 recsys 上的论文

(一)简单介绍

  • FM:一个特征对应一个隐变量;FFM:将特征分为多个field,每个特征对每个field分别有一个隐变量,因为同一个特征对不同field的影响可能是不同的,隐变量也应该不同。
  • 举个例子,我们的样本有3种类型的字段:publisher, advertiser, gender。其中publisher有5种,advertiser有10种,gender有2种,one-hot编码后,每个样本有17个特征,其中只有3个非空。
    FM,17个特征,每个特征对应1个隐变量。
    FFM,17个特征,每个特征对应3个隐变量。

(二)模型介绍

  • 表达式
  • AdaGrad求解

四、Wide & Deep

2016年谷歌团队发表的一篇文章
Cheng H T , Koc L , Harmsen J , et al. Wide & Deep Learning for Recommender Systems[J]. 2016.

(一)wide 和 deep 的比较

  • wide:广泛应用于具有稀疏、大规模场景。组合特征有效且可解释性强,但需要很多特征工程,且对于未出现过的组合无法学习。
  • deep:需要较少的特征工程,泛化能力强,可以通过稀疏特征 embedding 学习到未出现过的特征组合。但容易过泛化,推荐不太相关的东西。
  • wide & deep:记忆和泛化的结合。

(二)memorization 和 generalization(EE问题)

  • memorization:exploit,学习频繁出现的特征组合,从历史数据中学习相关性。容易推荐和用户浏览历史相似的东西。
  • generalization:explore,基于相关性的传递,学习未出现过的特征组合。容易推荐不一样的,新的东西。

(三)模型结构

The spectrum of Wide & Deep models

Wide & Deep model structure for apps recommendation

(四)其他

  • 模型训练:
    wide:FTRL
    deep:AdaGrad

  • 预测公式

五、DeepFM

华为2017年的文章
Guo H, Tang R, Ye Y, et al. DeepFM: A Factorization-Machine based Neural Network for CTR Prediction[J]. 2017.

(一)优势

  • 是端对端的学习模型,wide 部分和 deep 部分共享一样的输入,不需要额外的特征工程,能够同时学习到低阶和高阶的特征交互。
  • 线性模型虽然十分有效,但是无法刻画交互特征,需要很多特征工程,缺点是无法刻画高阶特征交互,也无法学习到在训练集中出现次数很少的特征组合。FM可以学习到2阶的特征组合。

(二)特征

  • 连续特征:值本身,或者离散化后one-hot
  • 离散特征:one-hot
  • CTR预估场景中,特征的特点:
    1)稀疏
    2)连续特征和类别特征混合
    3)根据field分组
    因此加入了embedding层

(三)模型介绍

  • 预测分为两部分


    预测公式

  • FM:能更有效的学习到2阶交互特征,尤其是在稀疏场景下


    FM Component

    FM公式
  • Deep:


    Deep Component
  • embedding


    The structure of the embedding layer

    1)每个 field 的input大小不一样,但是embedding都一样大;
    2)在FM中V是一个m*k阶的矩阵,这里用V来作为input到embedding的权重,一起训练,而不是像其他work一样用FM来预训练。

(四)共享embedding

  • 从原始特征中同时学到了特征之间的低阶和高阶组合
  • 不需要像 wide & deep 一样做特征工程,端到端学习

六、ESMM

ESMM是2018年阿里妈妈团队提出的一个多任务模型。
Ma X , Zhao L , Huang G , et al. Entire Space Multi-Task Model: An Effective Approach for Estimating Post-Click Conversion Rate[J]. 2018.

(一)传统CVR预估面临的两个问题

  • SSB(sample selection bias )

    impression表示展示,click表示点击,conversion表示转化,用户的行为模式是impression->click->conversion,传统的CVR预估把click(如图灰色)作为training data,而训练出来的模型要在所有impression(如图白色)中进行预测,存在样本选择偏差。

  • DS(data sparsity)
    由于点击行为实在是太少了,利用点击数据作为样本训练CVR预估模型存在数据稀疏问题。

(二)本文怎么解决

  • Modeling over entire space(解决SSB)
    CVR:conversion / click
    CTR:click / impression
    CTCVR:conversion / impression

    通过预测CTCVR和CTR,然后相除得到CVR,由于CTCVR和CTR都是在整个impression样本空间进行估计的,因此解决了SSB问题。
  • (Feature representation transfer)解决DS
    CVR和CTR共享特征embedding表示,CTR训练数据要比CVR训练数据多很多,一定程度上解决了数据稀疏性问题。

(三)技术细节

Modeling over entire space

模型引入两个辅助任务,pCTR和pCTCVR,从而间接学习到pCVR

  • CTR:有点击行为的曝光为正样本,没有点击行为发生的曝光为负样本
    CTCVR:同时点击和购买的曝光为正样本,否则标记为负样本。
    CTR和CTCVR都是在整个样本空间的,解决了SSB问题。
  • 损失函数由两部分组成, CTR 和 CTCVR,两部分都采用交叉熵损失函数。

Feature representation transfer

  • ESMM中,CVR网络和CTR网络共享embedding字典。该共享机制使ESMM中的CVR网络能够从 un-clicked impression 中学习,缓解数据稀疏性问题。
  • 另外,ESMM模型中的子网络结构可以用其他模型替换,ESMM只是提供了一种解决问题的思路,具体应用还需要根据实际业务场景进行调整。

七、DSSM


参考资料

ESSM论文地址
精读&解析 Entire Space Multi-Task Model(ESMM) 阿里2018年CVR预测
推荐系统遇上深度学习(三)--DeepFM模型理论和实践

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 211,817评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,329评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,354评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,498评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,600评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,829评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,979评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,722评论 0 266
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,189评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,519评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,654评论 1 340
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,329评论 4 330
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,940评论 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,762评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,993评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,382评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,543评论 2 349