2019-2020review5-embedding入门

一、embedding 方向发展脉络

从传统的sequence embedding过渡到graph embedding的过程,基于word2vec的一系列embedding方法主要是基于序列进行embedding,在当前商品、行为、用户等实体之间的关系越来越复杂化、网络化的趋势下,原有sequence embedding方法的表达能力受限,因此Graph Embedding方法的研究和应用成为了当前的趋势。

1、word2vec

CBOW和Skip-gram两种word2vec的模型结构,产出词向量。

2、graph embedding

(1)deepwalk(word2vec)

deep walk是network embedding的开山之做,将NLP词向量的思想借鉴过来做网络的节点表示。

参考资料1:https://zhuanlan.zhihu.com/p/45167021

参考资料2: http://lipixun.me/2018/01/11/deepwalk

原文:http://www.perozzi.net/publications/14_kdd_deepwalk.pdf

(DeepWalk:Online Learning of Social Representations)

(2)LINE

LINE也是一种基于邻域相似假设的方法,只不过与DeepWalk使用DFS构造邻域不同的是,LINE可以看作是一种使用BFS构造邻域的算法。1阶直连,2阶邻域。

参考资料1:https://zhuanlan.zhihu.com/p/56478167

原文:https://arxiv.org/pdf/1503.03578.pdf

(LINE:Large-scale Information Network Embedding)

(3)SDNE

SDNE可以看作是基于LINE的扩展,同时也是第一个将深度学习应用于网络表示学习中的方法。SDNE使用一个自动编码器结构来同时优化1阶和2阶相似度(LINE是分别优化的),学习得到的向量表示能够保留局部和全局结构,并且对稀疏网络具有鲁棒性。

参考资料1: https://zhuanlan.zhihu.com/p/56637181

原文:https://www.kdd.org/kdd2016/papers/files/rfp0191-wangAemb.pdf

(StructuralDeep Network Embedding)

(4)node2vec

在graph中主要存在两种关系,用作者的原话叫homophily和structual equivalence。所谓homophily,即是在graph中紧密相连的邻域。具有这种关系的顶点之间,学习出来的向量应该接近或者相似。所谓structural equivalence,就是指在图中具有相似作用的顶点,他们之间未必相邻,甚至可能相隔较远,比如都是所在邻域的中心顶点。满足这种关系的顶点之间,特征向量也应该接近或者相似。通常在现实世界的graph中,会同时存在这两种关系。但是在不同的任务中需要关注的重点不同,可能有些任务需要关注网络 homophily,而有些任务比较关注网络的structual equivalence,可能还有些任务两者兼而有之。在第一阶段的表示向量学习过程中,如何学习出表示向量,会影响到下游任务的效果。在DeepWalk中,在采样时作者只是单纯地采用随机游走,无法灵活地捕捉这两种关系,在这两种关系中有所侧重。实际上,对于这两种关系的偏好,可以通过不同的序列采样方式来实现。有两种极端的方式,一种是Breadth-First Sampling(BFS),广度优先搜索,如图1中红色箭头所示,从u出发做随机游走,但是每次都只采样顶点u的直接邻域,这样生成的序列通过无监督训练之后,特征向量表现出来的是structual equivalence特性。另外一种是Depth-First Sampling(DFS),深度优先搜索,如图1中蓝色箭头所示,从u出发越走越远,学习得到的特征向量反应的是图中的homophily关系。

参考资料1: https://zhuanlan.zhihu.com/p/63631102

原文:https://www.kdd.org/kdd2016/papers/files/rfp0218-groverA.pdf

(node2vec:Scalable Feature Learning for Networks)

(5)eges

在商品推荐系统中,主要面临着三个技术挑战,分别是可扩展性(scalability)、稀疏性(sparsity)、冷启动问题(cold start)。阿里淘宝团队提出了基于Graph

Embedding的算法来解决以上三个问题。该文在DeepWalk的基础上,增加 item 的额外信息(例如category,

brand, price等)丰富item表征力度。文章中共涉及到三个模型:

Base Graph Embedding(BGE),基础deepwalk、wor2vec;

Graph Embedding with Side Information(GES),增加side information,embedding均值;

Enhanced Graph Embedding with Side Information(EGES),增加side information,组合表示item_embedding时,对 item 和 side information(例如category, brand, price等)的embedding施加不同的权重,该权重值通过模型训练得到。

参考资料1:https://zhuanlan.zhihu.com/p/69069878

原文:https://arxiv.org/pdf/1803.02349.pdf

(EnhancedGraph Embedding with Side Information)

二、在深度学习推荐系统中,Embedding主要的三个应用方向:

在深度学习网络中作为Embedding层,完成从高维稀疏特征向量到低维稠密特征向量的转换;

由于高维稀疏特征向量天然不适合多层复杂神经网络的训练,因此如果使用深度学习模型处理高维稀疏特征向量,几乎都会在输入层到全连接层之间加入Embedding层完成高维稀疏特征向量到低维稠密特征向量的转换。典型的例子是微软的Deep Crossing模型和Google的Wide&Deep模型的深度部分。

作为预训练的Embedding特征向量,与其他特征向量连接后一同输入深度学习网络进行训练;

通过上面对Embedding层的介绍,同学们肯定已经知道Embedding层的训练开销是巨大的。为了解决这个问题,Embedding的训练往往独立于深度学习网络进行。在得到稀疏特征的稠密表达之后,再与其他特征一起输入神经网络进行训练。典型的采用Embedding预训练方法的模型是FNN,FNN利用了FM训练得到的物品向量,作为Embedding层的初始化权重,从而加快了整个网络的收敛速度。在实际工程中,直接采用FM的物品向量作为Embedding特征向量输入到后续深度学习网络也是可行的办法。再延伸一点讲Embedding的本质是建立高维向量到低维向量的映射,而“映射”的方法并不局限于神经网络,实质上可以是任何异构模型,这也是Embedding预训练的另一大优势,就是可以采用任何传统降维方法,机器学习模型,深度学习网络完成embedding的生成。

通过计算用户和物品的Embedding相似度,Embedding可以直接作为推荐系统或计算广告系统的召回层或者召回方法之一。

随着Embedding技术的进步,Embedding自身的表达能力也逐步增强,利用Embedding向量的相似性,直接将Embedding作为推荐系统召回层的方案越来越多的被采用。其中Youtube推荐系统召回层的解决方案是典型的做法。Youtube利用深度学习网络生成Video Embedding和User Embedding的方法。利用最终的Softmax层的权重矩阵,每个Video对应的列向量就是其Item Embedding,而Softmax前一层的输出就是User Embedding。在模型部署过程中,没有必要部署整个深度学习网络来完成从原始特征向量到最终输出的预测过程,只需要将User Embedding和Item Embedding存储到线上内存数据库,通过内积运算再排序的方法就可以得到item的排名。这大大加快了召回层的召回效率。

参考资料:

1、https://zhuanlan.zhihu.com/p/58805184 Embedding从入门到专家必读的十篇论文

2、//www.greatytc.com/p/60ef42833d0c word2vec使用笔记

3、https://zhuanlan.zhihu.com/p/64200072 深度学习中不得不学的Graph Embedding方法

4、https://zhuanlan.zhihu.com/p/67218758 Embedding在深度推荐系统中的3大应用方向

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,911评论 5 460
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 82,014评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 142,129评论 0 320
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,283评论 1 264
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,159评论 4 357
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,161评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,565评论 3 382
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,251评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,531评论 1 292
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,619评论 2 310
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,383评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,255评论 3 313
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,624评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,916评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,199评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,553评论 2 342
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,756评论 2 335

推荐阅读更多精彩内容