Beta Embeddings for Multi-Hop Logical Reasoning in Knowledge Graphs - 论文笔记

NIPS 2020的一篇论文,涉及知识嵌入方法和Multi-hop QA,有完整代码

0. Abstract

为处理知识图谱存在的规模庞大和不完整问题,近期研究采用知识嵌入方法,将知识图谱实体嵌入到低维空间中,利用嵌入获取答案实体。当前研究条件下的知识嵌入存在的局限包括:

  • 无法处理所有任意一阶逻辑查询(FOL),特别是无法处理否定运算
  • 不能自然地模拟不确定性

文中提出的BetaE模型能处理所有一阶逻辑操作(与、或、非)。其核心思想是采用了带有界支持(bounded support)的概率分布,尤其是Beta概率分布,将问题及实体嵌入到概率分布中,从而模拟不确定性。逻辑操作在神经网络构造的概率嵌入空间中完成

文中的BetaE模型在三个大型不完整知识图谱上均实现了最好成绩,比之前不支持否定运算的模型提高了25.4%

1. Introduction

知识图谱中的推理涉及一阶逻辑查询first-order logic, FOL,包括:量化quantification,连接conjunction,析取disjunction,取反negation。相关例子如下图所示

image-20201029155027190

当前的知识嵌入方法不支持取反negation操作,仅支持正一阶查询existential positive first-order, EPFO

本文贡献主要包括:

  • 概率建模方法,可以反映查询的不确定性
  • 通过基于β分布的神经网络模型,支持FOL
  • 可以模拟实际操作,如取两次反等于正
  • 支持任意FOL查询(后两条有点凑数)

2. Related Work

知识图谱嵌入中的不确定性

当前知识嵌入方法,如KG2ETransG,主要关注链路预测。本文作者认为这些方法不好应用在多跳推理任务中(实际上上一篇文章已经讲了,链路预测可以解决多跳推理问题)。本文的解决方案是,通过神经网络学习概率嵌入方法,实现对复杂查询问题的多跳推理

知识图谱多跳推理

相比于使用多跳规则或路径提高链路预测性能的方法,知识嵌入方法能够直接嵌入和回答复杂FOL查询,而不用对中间实体建模。这样提高了算法的可扩展性(不随知识图谱扩大而变慢)

3. Preliminaries

  • first-order queries
image-20201029185053914
  • 计算图:一种异构树,叶节点表示锚节点anchor entity(?),根节点表示答案实体集合。对给定的FOL查询,通过跟踪计算图并执行逻辑算子,最后观察根节点中的实体集合获取答案。这种计算过程类似于遍历知识图谱。基本运算包括以下三种:关系投影、交、非(并可以被交和非的联合运算代替)
image-20201029190922404
image-20201105163029616

4. Probabilistic Embeddings for Logical Reasoning

4.1 实体和查询的β嵌入

嵌入的目标包括:

  • 不确定性建模
  • 闭包的逻辑算子

其中,闭包的逻辑算子有两点作用:

  • 算子可以任意组合
  • 固定时空复杂度,可扩展性

β分布包含两个形状参数αβ,β分布的重要性质是概率分布函数PDF,β分布的不确定性可以通过微分熵H反映

image-20201029193541250

令每个实体都有β分布,对应概率分布为pS

4.2 概率逻辑算子

三种概率逻辑算子,可以将一或多个β嵌入转换为一个新的β嵌入

概率投影算子

采用多层感知机模型,针对不同关系r训练一一对应的模型。结果嵌入S'是固定大小的嵌入向量

image-20201029195238481

概率交集算子

输出嵌入向量是输入嵌入的归一化求和,也就是z = 1/n

为了交集算子有更强的表现能力,对(2)内的每个输入嵌入,引入了注意力机制(3)、(4)。其中注意力标量的计算是通过多层感知机进行计算

image-20201029201003668
image-20201029201020230
image-20201029201029091
  • (2):输出嵌入的计算方式,是对所有注意力输入嵌入的归一化求和

  • (3):注意力标量计算方法

  • (4):注意力输入嵌入计算方法,融合了β分布

概率补集算子

补集计算方法就是将β分布的αβ取倒数。这种方法满足补集的补集是原集的要求

image-20201029202320409

4.3 学习β嵌入

距离

输入是n维β实体和查询嵌入,则每个输入都有nβ分布2n个参数

计算实体和查询的距离,方法是计算两个β嵌入的各个维度的KL散度之和

image-20201029202616211
  • (5):计算实体嵌入和查询嵌入的距离。这里是先vq,论文里介绍说,这样查询嵌入会覆盖所有答案实体嵌入的模式(?)

训练目标

训练目标是最小化查询嵌入和答案实体嵌入的距离,同时,通过负采样,最大化查询嵌入和其他实体嵌入的距离

image-20201029202627850
  • (6):损失函数,其中k是超参数,是随机选取负样本的个数

求并集

模型对求并集有一定限制。作者的另一模型,Q2B,实现了对求并集的改进

5. Experiments

5.1 实验配置

image-20201029225224032
  • 评价方案:考察的主要是缺少查询路径的实体non-trivial answer。求出每个实体的距离,进行排名,从而获取平均倒数秩Mean Reciprocal Rank, MRR(排名的倒数),以及获取另一个评价指标是Hits at K, H@K(排名前k个例子中多少是正确分类的)
  • 查询:同样是基于另一篇文章的9种查询结构,并提供了2种改进结构。包括5种联合结构1p 2p 3p 2i 3i,5种带否定的新结构2in 3in inp pni pin。为了评估模型的泛化能力,还提供了训练时没有的新型逻辑结构ip pi 2u up进行评价。
image-20201029204211779
image-20201029225247066
image-20201029204226755
image-20201029204253446
  • 基线:Q2BGQE

5.2 模拟任意FOL查询

EPFO建模查询

由于Q2BGQE都不能进行否定形式建模,因此用EPFO建模进行比较

image-20201029225323675
image-20201029204308916
image-20201029225353595

DNF和DM

DNF是正常形式,DM是基于德摩根律转换的有否定和联合的形式。DM更难一些,而BetaE仍然取得了一定效果

否定建模查询

image-20201029225305710

5.3 查询的不确定性建模

为衡量BetaE的查询不确定性评估能力,采用两种评价方法:Spearman秩相关系数Spearman's rank correlation coefficient, SRCC和Pearson相关系数Pearson's correlation coefficient, PCC。其中SRCC用于衡量变量排序的统计依赖性,PCC衡量变量的线性相关性。与Q2B进行对比,结果提高很大

image-20201029230046630

无答案查询建模

由于BetaE可以对查询的不确定性建模,因此可以用查询嵌入的微分熵判断查询结构是否为空。计算微分熵并用其进行分类判断是否有答案,评价指标是AUC。结果显示,可以判断是否没有答案

image-20201029230330866

6. Conclusion

本文提出的BetaE模型是第一个能够处理知识图谱上任意FOL查询的知识嵌入方法。BetaE可以通过可扩展的方式跟踪计算图,使用概率逻辑算子将查询嵌入到β分布中,进行多跳推理。实验证明,BetaE回答任意逻辑查询和不确定性建模方面明显优于过去的最先进技术

论文分析

对过程介绍的很详细,是篇知识嵌入小白也能安心阅读的好论文。效果提升很大,相对于以往的嵌入方法应该是有质的飞跃,可以继续探索

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,284评论 6 506
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,115评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,614评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,671评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,699评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,562评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,309评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,223评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,668评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,859评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,981评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,705评论 5 347
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,310评论 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,904评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,023评论 1 270
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,146评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,933评论 2 355

推荐阅读更多精彩内容