文章从知识库的表示学习,问句表示学习,基于表示学习的知识库问答三方面以及他们面临的困难与挑战进行介绍。
知识库的表示学习的方法主要分为两类: 1) 基于张量分解的方法; 2) 基于映射的方法。
-
张量分解的方法以RESCAL系统为主要代表。
核心思想是将整个知识图谱编码为一个三维张量, 由这个张量分解出一个核心张量和一个因子矩阵,核心张量中每个二维矩阵切片代表一种关系, 因子矩阵中每一行代表一个实体。由核心张量和因子矩阵还原的结果被看作对应三元组成立的概率,如果概率大于某 个阈值,则对应三元组正确;否则,不正确.缺点是当关系数目较多时,张量的维度很高,分解过程计算量较大,不适用于关系数目众多而又非常稀疏的大规模知识库。 -
基于映射的方法主要是对于知识库中的基本语义单元:三元组进行独立建模。
根据对语义关系r的表示方式,又可分为映射矩阵和映射向量两类。
映射矩阵典型代表Structured模型,该模型用两个分离的矩阵表示关系,不能很好地捕获关系与实体之间的联系。为改善这个模型又诞生了SME模型,LF模型,SL模型等。
映射向量方法对于三元组的建模看作从头部实体到尾部实体的翻译.
最早提出的模型是TransE是一种计算效率很高、预测性能非常好的模型. 对于“1-to-1”关系类型, 这一模型通常能够很好的建模.但对于“1-to-N”、“N-to-1”和“N-to-N”等关系类型存在不足。为改善这个问题又提出了TransH、TransR、TransD等。
KG2E模型在TransE的基础上提出一种基于分布的表示学习方法,使用基于高斯嵌入的方法在多维高斯分布空间中学习知识库中实体和关系的表示.不同于TransE以及其改进模型,KG2E将知识库中的实体、类别、关系都约定服从高斯分布.通过引入协方差矩阵,该模型能够对于知识库中实体和关系的不确定性进行建模,尤其对于1-to-N和N-to-1的关系具有很好的学习效果。
问句的表示学习是通过统计学习自动获取问句(文本)的语义表示.从神经网络的结构上看,主要可以分为三种方式:递归神经网络、循环神经网络和卷积神经网络.由于已经有了神经网络的基础,这里就不详细介绍了。
基于表示学习的知识库问答方法的核心是把自然语言问句和知识库中的资源都映射到同一个低维向量空间中,这样就可以将问句和答案都用一个向量来表示,知识库问答问题就被转化为求解向量相似度的问题。
基于词向量的学习方法法需要获得大量的问句–答案三元组对来训练,以得到向量词典V和W.这项工作在Reverb数据集上取得了不错的效果,F1 值达到73 %.然而,这一方法对于问句和知识库的语义分析十分粗糙,仅仅是基于词、实体、关系的语义表示的简单求和.
Yih等把知识库问答转换成两个问题,一个是找到问句中的实体和知识库中实体的对应;另一个是问句中自然语言描述和知识库中语义关系的对应.找到实体和关系后, 就可以从知识库中找到其指向的答案实体.在上述两种匹配时都 采用 CNN 来处理自然语言问句.
知识库表示学习的难点与挑战:目前的知识库表示学习方法都集中在单个知识库上, 对于多知识库的表示学习的研究较少. 在学习过程中, 如何建立异构知识库间的实体对齐、关系对齐是一个尚待研究的问题.
文本表示学习的难点与挑战:文本表示目前处于简单模型不能很好地捕获各种语义,而复杂模型在提升语义捕获能力的同时,往往使模型变得非常复杂,难以实用.如何将二者平衡是一个难点。
基于表示学习的问答系统构建的难点与挑战:如何利用表示学习自动学习推理规则,如何平衡高质量人工知识库和通过自动抽取技术得到的开放知识库的关系是一个难点。