论文精读|FastRE: Towards Fast Relation Extraction with Convolutional Encoder and Improved Cascade Bin...

1.Introduction

目标:从给定的非结构化文本中识别实体之间的关系,组成关系三元组(ei, rk, ej),如下:
输入文本:中国运动员徐梦桃在北京冬奥会自由式滑雪女子空中技巧比赛决赛中获得冠军。
抽取需求:

关系类型 国籍
关系论元1 主体
关系论元2 客体

期望输出三元组:(徐梦桃,国籍,中国)

2.Contributions

论文中的算法兼顾性能和效率,大概是之前工作的7-15倍inference speed,1/100的parameters。现实中有些场景对实时性要求比较高,比如金融决策需要比较快地从海量实时新闻中提取三元组,基于transformer的预训练模型性能比较好,但是内存消耗大,需要的时间比较长,并行效果比较不好。
为了提升效率,文章没有用基于transformer的预训练模型,而是使用膨胀卷积(也叫空洞卷积)来进行encoder,其中类似与lstm加了一个gate unit,使用残差网络帮助训练。改进了级联二进制标记框架,引入了一种实体-类型-预定义映射机制和一种位置相关的自适应阈值。

3.Model

整体的模型如下,首先经过一个卷积编码器,将word embedding和position embedding拼起来送到一个L层的block中得到句子表示h,然后使用两个 multi-head self-attention用于 head entity和tail entity标注。然后将句子特征h和辅助特征Hh拼起来送到一个前向神经网络来获取所有head entity及其类型。通过映射机制,确定当前head entity类型的潜在relation。最后,与头部实体标记类似,使用句子表示H、辅助特征Ht和head entity特征Fh,利用另一个FFN获得所有tail entity,形成所有关系三元组。

image.png

3.1Convolutional Encoder

如图:xg是word embedding,xp是position embedding,拼起来送到一个L层的encoder里面去,每一层叫一个block,第i层的yi通过两个膨胀卷积Ya和Yb,其中一个经过一个sigmoid,Ya与sigmoid(Yb)做element-wise multiplication(即对应位置相乘),再经过残差连接。通过膨胀卷积,扩大reception field,捕获长距离的依赖关系,但预先确定的接受区域影响了后续层详细检查先前的信息,所以加了一个gate unit来选择低层的feature,residual network帮助训练,避免梯度消失。经过l层后得到句子表示h。


image.png

3.2 Improved Cascade Binary Tagger

原始的Cascade Binary Tagger:
把传统形式的关系分类f(s,o)--> r 转换成了f_r(s)-->o,构建一层PointerNet判断每个位置是不是起始和终止位置,再把距离最近的起止位置连起来,然后和h拼起来,判断每个head entity对应每个relation是否有匹配的tail entity,若有就组成三元组。


image.png

文章的改进:
1.引入实体-类型映射机制,识别subject的同时识别对应的type,建立一个head entity和预定义relation之间的映射,当确定head entity类型时,其潜在的对应关系也是确定的。比如前面说的国籍关系的主语类型是人物,避免了对所有关系的遍历。2.使用position相关的自适应阈值策略将全局阈值替换为不同位置的可学习阈值。在loss function中可以体现,该函数在训练中将positive分数推到阈值以上,将negtive拉到阈值以下,然后学习这个阈值。

具体过程:
首先使用两个 multi-head self-attention用于 head entity tagging and tail entity tagging,self-attention的公式为(5)(6)(7)(8)。将每个位置i每个类型j对应的来自句子表示H的wi和辅助表示Hs的wih拼起来送到FFN,计算每一个i位置为start和end的score。oijhs表示第i个token类型为tj为start的score。

image.png

loss function如下,应用了自适应阈值,oij表示第i个token类型为tj为start的score,end也是类似。pij就是位置为i,类型为j的token, oi;AT表示阈值。(11)的前半部分涉及positive标签和阈值,总损失为所有positive标签的交叉熵loss之和,这一部分把positive的logit值推到高于阈值,后一部分涉及negtive标签和阈值。经过这个就得到了head entity以及对应的类型,如:taylor swift和对应的类型person。通过映射表可知主语为person类的relation有birth place 、birth date。

oijts表示对于relation rj第i个token是tail entity的start分数,下面的类似,即end的分数,计算loss的方式(11)相同。Zi表示第i个sentence中所有的relation,Lhj就是第j个relation的loss,Ltj|h是head entity为h的同时类型为tj的loss,加起来就是总共的loss。得出三元组。

image.png

4.Experiments

从实验结果上看效果是不错的,但还需要经过实践的检验。老师说工业上目前TPLinker和CasRel用的较多,效果比较好。


image.png
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 211,348评论 6 491
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,122评论 2 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 156,936评论 0 347
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,427评论 1 283
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,467评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,785评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,931评论 3 406
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,696评论 0 266
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,141评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,483评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,625评论 1 340
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,291评论 4 329
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,892评论 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,741评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,977评论 1 265
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,324评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,492评论 2 348

推荐阅读更多精彩内容