推荐系统论文阅读(四十二)-阿里:融合Match和Rank的DMR模型

论文:

论文题目:《Deep Match to Rank Model for Personalized Click-Through Rate Prediction》

论文地址:https://ojs.aaai.org//index.php/AAAI/article/view/5346

我们之前介绍了很多的文章,发现很多文章都是针对match或者rank去做的,很少有一个模型可以去同时完成这两个工作,从事推荐算法工作的人都知道,召回模型的负样本跟排序模型的负样本会有很大的差异,这个我在之前的文章已经说过了很多次,所以说,如果同时使用rank的label或者使用match的label就会让另一个模型难以优化,也就是我们一直说的样本选择偏差问题。

下面我们就来介绍一下,阿里是怎么讲两个任务用一个统一的模型进行建模。

一 、背景

开始讲DMR之前,我们先来回忆一下airbnb那篇经典的文章,通过item2vec建模出item的embedding后,后面其实还讲了如何使用训练到的embedding信息以及user跟itme的相关性分数去训练排序模型,DMR其实在这里也借鉴了这个思想,把相关性分数当作特征输入到后面的排序模型了,但是这个相关性分数是伴随着整个模型一起额外训练出来的。

先来介绍几个概念,

User-to-Item(U2I):这种模型一般是通过建模出user的向量和item的向量,然后用内积的方式来表示user和item之间的相似度。(YoutubeDNN)

Item-to-Item(I2I):这种模型一般是讲用户的点击序列进行建模,建模得到item之间的相似度,然后通过item之间的相似度来计算user跟itme之间的相似度。(airbnb)

在DMR模型中,我们用这两种经典的召回模型来构建底层的特征提取结构,而u2i的子模块又可以将产出的向量当作后面我们在召回使用的结果。

二 、DMR模型结构


模型的整体结构如上图所示,除了我们之前说的u2i和i2i以外,整个模型跟我们之前看到的所有的阿里的模型都非常相似,特征都是四部分组成,用户特征,上下文特征,序列特征,还有目标item的特征,这是ctr预估任务中一般的几类特征,我们先来看看文章里出现的符号吧。

x_{p} :用户的画像特征

x_{b} :用户的序列行为特征

x_{t} :目标item的特征

x_{c} :上下文特征

这四部分的特征都是离散特征,都会经过embedding层得到对应的embedding向量。

2.1 Based Model

based model是不含u2i和i2i结构的,其实就是DNN结构,除了behaviors特征以外,其他的特征全部concat在一起,behaviors特征通过sum pooling的后也跟之前得到了向量concat到一起,得到所有的特征向量后,直接在后面接上Prelu+MLP+sigmoid就可以进行分类了,损失函数为:

2.2 The structure of Deep Match to Rank

2.2.1 User-to-Item Network

如上图所示,整个U2I的结构长这样,这里也就是我们DMR模型中Match任务的重点了,因为这里可以直接产出优质的item embedding存储下来,然后利用这个U2I结构去在线生成user embedding去做向量召回了,user向量总体的计算如下:

这部分结构其实跟DIN中对于用户点击序列的处理方式是一样的,都是对用户的序列进行attention+pooling的方法,不同的地方在于这里没用候选item去计算相似度,文中使用的是偏置向量P,这里其实我们可以从两个角度去理解为什么要用这个时间偏序向量来计算attention score:

1.由于我们的match阶段是向量化召回的方式(faiss),所以这里肯定不能用候选item来计算user 向量。

2.时间偏序信息在用户的序列行为中可以带来重要的信息,可能会对用户在当前的偏好建模非常有用。

文中没有直接使用下面的公式来建模user跟item之间的相似度:

其中v是候选item的向量,这里模型采用的是跟之前item embedding table不一样的table,就跟youtube dnn那篇文章中使用另一套参数的方法一样,事实上也证明了多了一套参数的情况下会给模型的优化带来较好的收益,其实这里我个人的理解是这样,共现关系的建模和序列行为中item行为的建模可能是彼此矛盾的,所以优化起来不是很容易,正如zgr在CAN文章所说的原因。

不直接使用这个r的原因是:

1.直接建模这个相似度难以优化,因为用排序模型中的label无法很好的去优化match任务,正如我们前面所说的原因一样,在召回模型中,负样本是很有讲究的

2.v的学习通常只跟r相关,所以根本不需要用最后排序中的label来优化

文章对这里的改进是这样,用每一个时间步的item去作为item,其他item随机负采样作为负样本来优化这个u2i召回模型,正如我们在召回任务中负采样的方式一样,如果只让这个u2i去学习rank中的label,那么这个u2i就会一叶障目不见泰山了。

pj是在T时刻点击T这个时刻,用T-1计算出的user 向量跟T时刻点击的物品j计算得到的点击概率,这里是个多分类问题,肯定不能直接用softmax直接去优化了,所以这时候负采样+交叉熵就派上用场了:

2.2.2 Item-to-Item Network

这部分结构跟DIN中对于序列的出来就差不多了,直接看公式吧:

除了sum pooling这部分以外,模型还把候选item的向量直接送到后面的mlp中了,此外还多了一个r,r是归一化之前计算得到的score的和,至于为什么要将r也输入到后面的mlp中呢,前面也说过了相关性分数对于整个排序模型会带来很大的提升,如果整个模型是树模型的话,往往r的特征重要性就会很大。

2.2.3 模型的输出和训练

模型进入分类之前的input为:

总的损失函数为:

三 、实验结果


其实文章通篇的思路都是围绕着如何把match结果提取到的信息接入到排序中,也就是不管是u2i还是i2i都只是作为排序模型特征抽取的部分,我有个比较好奇的地方是,如果引入了这两种结构,会不会对其他路召回的结果带来排序上的偏差,毕竟模型肯定能学习到这两种召回模型的结果。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,470评论 6 501
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,393评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,577评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,176评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,189评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,155评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,041评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,903评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,319评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,539评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,703评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,417评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,013评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,664评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,818评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,711评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,601评论 2 353

推荐阅读更多精彩内容