[搜索多样性] P-Companion: A Principled Framework for Diversified Complementary Product Recommendation ...

Introduction

互补商品推荐（Complementary Product Recommendataion, CPR），i2i问题。输入的query是一个item，目标是召回尽可能多种类的互补商品（例如手机和手机壳，羽毛球拍和羽毛球）。

image.png

难点：

互补关系是非对称关系，例如，手机壳->手机是正确的，但是手机->手机壳是错误的。并且互补关系不等于相似，通过常见的相似度量是不能得到互补关系的
多样性：互补的推荐里面需要考虑多样性
冷启动：推荐的常见问题，低资源的item效果差

之前的方法（矩阵分解/协同过滤/神经网络等）大多数是基于相似度的，无法解决这个问题。专门做互补商品推荐的工作有两个，Sceptre(KDD'15), PMSC(WSDM'18)。这两个工作都存在两个问题：

分别使用co-view和co-purchase数据作为判断相似商品和互补商品的依据，但是实际上co-view和co-purchase是有重合的，不同的类目重合度不一样
只在一个大类内部做推荐（例如电子/母婴），但是事实上互补的商品经常会跨类目。

Contribution：

提出了一种新的构建互补数据的模式
提出了一个新的模型 P-companion，可以生成多样化的互补商品推荐，并且可以处理冷启动的问题
效果：hit@10超过SOTA 7.1%

Preliminaries

Behaviour-based Product Graph (BPG)

节点：商品
属性：product catalog: title、类目、短描述等文本信息
边：
co-review: Bcv
co-purchase: Bcp
purchase-after-review: Bpv，浏览了x，最终购买了y

这里有一个疑问，co-review和co-purchase这两种边为什么是有向的？这影响了接下来构造数据的时候怎么能构造出来非对称的label

问题定义：给定BPG，给定query item i和它对应的类目 wi，给定目标互补商品的类目数k，生成互补商品集合。目标是优化co-purchase概率

image.png

Data Generating: Distant supervision label collection for CPR problem

修改了对互补商品的生成规则：作者观察到，co-review和co-purchase整体上有20%的重合，而且不同类目程度不同。符合人的直觉，会同时购买两件T恤，但是不会同时购买两个电视。最终的互补商品集合如下，人工评估这种方式的准确率比只用cp高了30%

image.png

打破了之前的类目限制：互补商品会出现跨一级类目的情况，例如，网球拍在Sports大类下面，但是网球鞋在Shoes大类下面。33%的电子商品的co-purchase类目是 home improvement 和 office product
最终生成的数据集：2.4kw 商品，3.5w 类目，8kw 互补关系

Model

P-Companion：E2E模型，分层多任务（预测类目&预测商品）联合训练。主要有三个部分

Product2vec: 基于图的商品表示学习（一跳的GAT），尤其适合解决冷启动问题
Complementary type transition: 预测互补商品的类目
complementary item prediction: 根据query商品和目标类目，预测互补商品

image.png

1. Product2vec

整体上是一个一跳的GAT，单独训练。这里训练出来的商品向量应该会用来初始化后面2&3中的商品向量。

https://intranetproxy.alipay.com/skylark/lark/0/2021/png/268035/1611196704642-90994778-7801-4645-b111-3e89c05a5394.png

商品初始表示：3层的网络

image.png
邻域选择：根据BPG图中边的情况，把item之间的关系分成两种：相似（substitute）和互补（complementary），这两种会分别构造邻域作为正例和负例。相似（左）和互补（右）的定义：

image.png

训练目标：经过相似商品子图聚合后，新的商品表示应该和初始表示相似；经过互补商品子图聚合后，新的表示应该和初始表示不相似

image.png

2. Complementary Type Transition

这里就是一个比较简单的分类任务的网络，每个类目有两个向量表达，一个用来做query向量，一个用来做context向量[图片上传失败...(image-6f62bc-1616648172252)] ，这里的目的是解决前面提到的互补关系非对称的问题。

image.png

3. Complementary Item Prediction

商品向量和target互补类目向量点乘，把商品向量transfer到target互补类目空间，再计算和target item的距离。

image.png

训练数据：和Product2vec相反，相似数据作为负例，互补数据作为正例，正负例比例1:1

Joint Training：预测商品和预测类目的loss加权求和，通过α控制比重（实际取的是0.8）

inference：需要分2步进行，先预测type，然后取Top K，再预测商品

Experiment

Experiment Setup

Dataset：构造方式见preliminaries

image.png

Baseline：
Co-purchase (CP): 直接把一起购买的商品作为CPR推荐的结果
Sceptre：根据商品的title/短描述/评论挖掘topic，然后通过LR预测substitute/complementary关系
PMSC：每个item分别有src embedding和tgt embedding两个表示，分别在query和candidate context中使用。通过神经网络分类。
JOIE：知识图谱表示学习的一个模型，会用到实体对应的type信息，这里把商品作为节点，把type改成是类目

Evaluation

image.png

目标互补type数量的实验，提升目标type数量，会同时提升多样性和hit。

image.png

人工评测：0-3分，分越高表示推荐的结果越好，评测的人越想买。这个结果说明模型推荐的结果和实际上co-purchase数据很接近

image.png

Case study: CPR on cold-start items

image.png

Online 实验

base策略：co-purchase ，orders + 0.23%, GMV+ 0.18%

Conclusion

回顾一下这篇paper对于几个challenge的解决方案：

互补是非对称关系，且不等于相似：1) 构造数据方式调整，提升互补关系label的准确率；2) 每个类目有query表达和context表达两种向量
多样性：hierarchical model，先预测type，后预测item。可以人工指定type数量
冷启动：通过product2vec图模型预训练商品向量

一些比较奇怪的点：

这篇论文里完全没有用户相关的建模，只有通过泛化的用户行为构造的BPG上的边，没有个体用户
对于item只用了类目&文本特征（product catalog）和边信息，完全没考虑商品自身的效率指标（例如orders等）

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 212,454评论 6赞 493
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 90,553评论 3赞 385
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 157,921评论 0赞 348
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 56,648评论 1赞 284
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 65,770评论 6赞 386
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,950评论 1赞 291
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 39,090评论 3赞 410
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,817评论 0赞 268
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 44,275评论 1赞 303
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,592评论 2赞 327
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,724评论 1赞 341
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 34,409评论 4赞 333
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 40,052评论 3赞 316
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,815评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,043评论 1赞 266
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 46,503评论 2赞 361
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 43,627评论 2赞 350

[搜索多样性] P-Companion: A Principled Framework for Diversified Complementary Product Recommendation ...

Introduction

Preliminaries

Data Generating: Distant supervision label collection for CPR problem

Model

1. Product2vec

2. Complementary Type Transition

3. Complementary Item Prediction

Experiment

Experiment Setup

Evaluation

Case study: CPR on cold-start items

Online 实验

Conclusion

推荐阅读更多精彩内容