本文介绍的论文是:《Personalized Re-ranking for Recommendation》
下载地址:https://arxiv.org/abs/1904.06813
排序是推荐系统中比较重要的一环,一般通过point-wise的方式对每一个物品计算一个得分,然后进行排序。但这样做只考虑了单个物品与用户之间的相关性,而忽略了物品之间的相互影响。因此本文在排序阶段后设计了一个重排序(Re-ranking)的模块,在考虑物品相关性的情况下对排序结果进行重排,一起来看一下。
1、背景
排序阶段是推荐系统中比较重要的一环,排序的质量直接影响了用户的体验以及平台的收益。排序算法整体可分为point-wise、pair-wise和list-wise。出于性能上的考虑,一般采用point-wise的方法,即对每一个候选物品给出一个评分,基于评分进行排序。这样的做法仅仅考虑了用户和物品之间的关系,而没有考虑排序列表中物品之间的关系。而pair-wise和list-wise的方法尽管将物品对或者物品列表作为整体输入,但也仅仅是尽可能优化损失函数,而并没有从特征空间上显式建模物品间的相互影响。(文中的这句话没有太明白)
一些文章通过建模物品之间的相互影响来对排序阶段给出的排序结果进行微调,这种做法叫做重排序(Re-ranking)。主流的方法是基于RNN的重排序。但是RNN对于建模物品之间的影响有一定的缺陷,如果两个物品相隔较远,它们的相关性并不能很好的刻画。
因此本文提出了一种基于Transformer的重排序结构,相较于RNN,其优势主要体现在两个方面:
1)两个物品的距离不会影响其相关性的计算
2)Transformer是并行计算,编码效率相较于RNN更为高效(RNN一个时刻只能输入一个物品,相当于是串行计算,而Transformer可以同时输入所有物品,是并行计算)
除了使用Transformer之外,本文还有一个值得借鉴的地方就是将用户特征加入了Transformer中,使得重排序更加个性化。接下来就一起看一下阿里是如何进行个性化重排序的。
2、模型介绍
2.1 整体介绍
重排序的整体框架如下图所示:
主要分为三个部分,输入层、编码层和输出层。文中用到的一些符号定义如下:
2.2 输入层
首先,经过排序阶段,我们得到了固定长度的列表S=[i1,i2,...,in],每个物品对应一个特征向量xi,长度为dfeature,此时输入计作E。除此之外,输入层还包含两个部分。
个性化向量Personalized Vector (PV):用户和每一个物品之间都会计算一个个性化向量pvi作为输入,个性化向量通过如下的预训练模型得到:
该模型是一个二分类模型,取最后一个layer的输出作为个性化向量pvi。
加入个性化向量之后,输入矩阵E'为:
位置编码信息Position Embedding (PE):与Transformer中固定的编码信息不同,这里的位置编码信息是可以学习,位置编码矩阵和E'大小相同,计作PE,此时模型的输入E''为:
在得到E''之后,经过一个单层的前向网络来进行一定的转换:
上图中等式右边的E应该是E''吧,感觉打错了。
2.3 编码层
编码层是Transformer结构:
有关Transformer,我们之前有篇文章详细介绍过,这里就不再赘述,大家可以参考://www.greatytc.com/p/2b0a5541a17c
2.4 输出层
假设第Nx个Transformer encoder block的输出为F(Nx),通过一层全连接神经网络和softmax层得到每个物品的重排序得分score(i)。
并基于交叉熵损失函数来进行模型参数的更新:
3、实验结果
文中使用Precision@k和MAP@k 作为评价指标,两个指标的计算方式如下:
有关推荐系统的评价指标,可以看本系列的第十六篇文章://www.greatytc.com/p/665f9f168eff
3.1 线下实验结果
首先,在Yhaoo Letor数据集上使用两个模型得到的最初推荐结果,分别使用不同的模型进行重排序,实验结果如下:
接下来,分析了不同的模型结构所对应的实验结果:
最后,使用真实的电商数据集进行试验,结果如下:
3.2 线上A/B实验结果
线上使用了三个模型进行A/B实验,实验的评价指标包括PV、IPV、CTR和GMV。PV指24小时内店铺内所有页面的浏览总量,可累加。IPV指点击进入宝贝详情页的次数。如果用户看的越多、点击次数越多,也可以一定程度上表示模型排序结果更好。
线上实验结果如下:
4、总结
这篇文章主要介绍通过Transformer对排序结果进行重排序。个人感觉比较创新的点在于如何将Transformer和用户特征进行结合,并提出了一种预训练的模型来得到用户的个性化向量。
但文中并没有给出直接将这个模型应用于排序阶段的效果如何,这一点也是我个人比较好奇的地方,感觉这个模型直接用在排序阶段也可以得到比较好的结果,哈哈。
本文介绍就到这列,可能我的理解还有不到位的地方,欢迎大家一起讨论对这篇文章的理解~