基于深度学习的实体和关系联合抽取模型研究与应用（二、相关理论技术）

本章分别介绍论文涉及到的理论和技术，其中第一节介绍实体和关系联合抽取方法，第二节介绍广泛应用于处理序列数据的循环神经网络，第三节介绍 Word2vec、BERT 等语言表示模型，第四节介绍了条件随机场模型。

一、实体和关系联合抽取方法

（一）基于参数共享的联合抽取模型

1、嵌入层：基于随机初始化或者加载预训练好的字、词向量矩阵的方式，将输入的文本转化为向量形式。
2、共享编码层：使用能够提取更丰富上下文表征的模型，从嵌入层输出的向量中获取语法、句法等特征作为后续实体识别、关系抽取任务的语义编码。
3、实体和关系解码层：根据两个子任务的特点，采用不同的解码层，解码层主要的作用是根据编码层得到的语义编码来计算实体标签类别和关系类别的得分分布。
4、实体和关系得分层：利用交叉熵等代价函数来计算解码层预测的得分分布与真实分布的差异，作为模型的 loss，模型的整体 loss 为实体识别和关系抽取两个子任务的 loss之和。
5、优化层：在训练的过程中，利用梯度下降或者梯度下降的改进算法来计算模型参数的梯度，通过反向传播迭代更新模型的参数，使得模型逐渐收敛。

（二）基于标注策略创新的联合抽取模型

为了解决将实体识别和关系抽取分开进行产生的冗余信息，Zheng[36]等人首次提出了基于新的标注策略，将抽取实体-关系三元组任务建模成一个序列标注任务。一个实体单词的标记包含三个部分的信息：1、BIESO 标注单词在实体中的位置，其中 S 代表实体只包含一个词，B、I、E 分别代表实体的起点、中间、终点，O 代表非实体词；2、关系类型，如 CP 代表着 Country-President 关系；3、实体的语义角色，{1,2}分别代表为语义关系中的{头实体，尾实体}。通过这种标注策略，使用一个端对端的序列标注模型就可以联合抽取出实体-关系三元组，解决了信息冗余问题。

二、循环神经网络

RNN 可以接受不限长度的输入，但是在反向传播过程中对 RNN 的参数进行优化时，如果输入序列过长，会因为权重矩阵𝑊和激活函数𝑓导数的连乘使得梯度增长或者缩小得非常快，导致对应的梯度爆炸或梯度弥散问题。针对 RNN 上述缺陷，Hochreiter 等人提出了基于长短时记忆(Long Short-Term Memory，LSTM)的循环神经网络，让模型能够学习到长距离的上下文依赖。LSTM 单元的结构如图 2-5 所示：

使用单向的 LSTM 只能获取从前往后的上文信息或者从后往前的下文信息，而在大部分的文本处理任务中，当前状态是由上下文信息共同决定的。通过将正向 LSTM 和反向 LSTM 对应的位置进行拼接，组成 Bi LSTM，可以让模型学习到长距离的上下文信息。BiLSTM 的网络结构如图 2-6 所示：

三、语言表示模型

深度学习模型需要将文本中的词转化为向量作为输入。最简单的词表示方法是采用独热向量。但是独热向量不能反映词与词之间的关系，并且容易导致维度灾难。真正让词向量广泛应用于自然语言处理任务中的工作是 Mikolov 等人提出 Word2vec。Word2vec 包含 CBOW（Continuous Bag-of-Word Model）和 Skip-Gram 两种获取词向量的模型。CBOW 模型是根据上下文来预测目标词，而 Skip-Gram模型则是利用目标词来预测它的上下文。不管是 CBOW 还是 Skip-Gram，其本质都是利用矩阵变换，将原来高维的独热向量转化为低维、具有一定语义信息的词向量。为了减少每条样本在输出层做 Softmax 时的计算开销，作者还引入了基于层次 Softmax 和负采样两种优化算法。
基于 Word2vec、Glove[45]等方法得到的词向量本质是静态的词向量，静态是指它们在训练完成后每个单词的表示就固定住了，在使用的时候词向量无法根据上下文语境的改变而变化。为了解决静态词向量无法区分多义词语义的局限性，科研人员提出了基于预训练语言模型来创建语境化的动态词向量的方法。Peters 等人提出了一种双向神经网络语言模型 Embeddings from Language Models (ELMo)来获取语境化的词嵌入。ELMo 能够根据每个单词的上下文语境，学习到每个单词的句法和语法特征，来创建单词在当前语境中的特征表示，从而解决了一词多义的问题。

ELMo 使用了前向（从左往右）和后向（从右往左）两种单向的 LSTM 语言模型来构成双向语言模型(biLM)，如图 2-7 所示：

不同于 EMLo 将预训练语言表示当作下游任务模型的特征，Radford 等人提出一种基于微调使用的预训练语言模型 Generative Pre-Training(GPT)。GPT 可以分为无监督的预训练和有监督的微调两个阶段。由图 2-8 可以看出，GPT 采用了单向的语言模型，只采用了词的上文信息来预测当前词，并且使用多层 Transformer 结构提取句子编码信息来进行预训练。

四、条件随机场

一个整体由若干位置组成，并且每个位置根据某种分布进行赋值，这个整体就组成了随机场。马尔可夫随机场是符合马尔可夫特性的随机场，即当前位置的赋值仅与相邻节点有关，与其它节点无关。条件随机场假设马尔可夫随机场只有 X 和 Y 两种变量，在 X 已知的情况下计算 Y 的条件概率分布 P(Y|X)。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 216,496评论 6赞 501
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 92,407评论 3赞 392
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 162,632评论 0赞 353
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,180评论 1赞 292
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,198评论 6赞 388
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,165评论 1赞 299
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,052评论 3赞 418
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,910评论 0赞 274
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,324评论 1赞 310
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,542评论 2赞 332
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,711评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,424评论 5赞 343
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,017评论 3赞 326
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,668评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,823评论 1赞 269
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,722评论 2赞 368
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,611评论 2赞 353