2020寒假,QA论文小总结

主要看了20篇近三年的顶会QA相关文章
大致分为几类:

  • 特定领域的问答系统,如法律、医疗等
  • 基于文本阅读理解的QA研究
  • 基于知识图谱、知识库的QA研究
  • 整合文本和KB的QA研究
  • 提出新的QA数据集
  • 中文相关

特定领域问答系统

WestSearch Plus: A Non-factoid Question-Answering System for the Legal Domain

本文是一个Demo Paper
本文作者提出了一个非事实问题的问答系统,该系统可为法律领域中用户输入的问题提供法律上准确、与司法管辖区相关并可以通过对话进行答复的答案。 这种商用系统完全基于NLP和IR,并且不依赖于结构化的知识库。 WestSearch Plus旨在为有关法律的基本问题提供简洁的一句话答案。 它的范围不限于特定主题或管辖范围。 潜在答案的语料库包含大约2200万份文档,这些文档分类为超过12万个法律主题。
其主要流程就是对问题进行关键词提取,然后通过现有的法律搜索引擎进行搜索,之后再对搜索到的结果进行关键信息的提取,用的都是现成的模型

A Hierarchical Attention Retrieval Model for Healthcare Question Answering

在医疗信息在线平台中导航以回答医疗保健消费者的特定查询是一项艰巨的任务。大多数此类查询本质上可能不是事实类问题,因此,传统的基于关键字的检索模型不适用于此类情况。此外,在许多情况下,可能希望获得一个简短的答案以充分回答该查询,而不是一个仅包含少量有用信息的冗长文档。在本文中,作者提出了一种神经网络模型,用于对医疗保健领域中的问题回答文档进行排名。所提出的模型在单词,句子和文档级别使用了一种深层关注机制,以便在各种长度的文档上有效检索事实和非事实查询。具体来说,单词级别的交叉注意使模型可以识别与查询最相关的单词,而句子和文档级别的层次注意则允许它对长文档和短文档进行有效检索。作者还构建了一个新的大规模医疗保健问答数据集,用于评估模型。

本文提出的模型名叫Hierarchical Attention Retrieval (HAR)模型,使用的是深度注意力机制



如图所示,本模型的主要特点是使用了交叉注意力机制来结合问题和文档的联系



从结果来看,HAR模型比目前许多baseline模型额效果都要好得多,提升非常明显

基于文本阅读理解的QA研究

Efficient and Robust Question Answering from Minimal Context over Documents

用于文档的问题解答(QA)的神经模型已经实现了显着的性能改进。 尽管有效,但由于这些模型在文档和问题之间的相互作用很复杂,因此无法扩展到大型语料库。 并且这种模型对对抗性输入很敏感。 在本文中,作者研究了回答问题所需的最小上下文,并发现现有数据集中的大多数问题都可以用少量的句子来回答。 受此观察的启发,提出了一个简单的句子选择器,以选择最少的句子集输入到QA模型中。


本文主要的贡献在于,对于document很庞大的数据集,使用了sentences selector来选择其中最为关键的几个用来回答问题的句子,来改进正确率和效率。实验表明这种方法非常有效

Document Gated Reader for Open-Domain Question Answering

基于深度学习的QA方法存在以下缺陷:

  • 远程监管数据的质量较差,并且答案得分在多个文档中未标准化。
  • 与以前的开放域问答系统不同,它们独立处理每个文档,这可能会忽略上下文中的宝贵信息。


这篇文章解决的问题就在于将不同的document的关系也加入到了寻找答案的要素之中。
提出了一个document gate 的操作,用来获取document之间的关联,具体见论文中的模型。
并且作者使用了IR模型来进行问题相关document的检索、本文做了比较大量的实验
DGR在大多测试中都有着最好的表现

Multi-Hop Paragraph Retrieval for Open-Domain Question Answering

本文涉及多跳开放域问答(QA)的任务。 这项任务特别具有挑战性,因为它需要同时执行文本推理和有效搜索。 作者提出了一种方法,用于检索嵌套在大型知识库中的多个支持段落,其中包含必要的证据来回答给定的问题。 作者的方法通过形成问题和段落的联合向量表示来迭代地检索支持图。 检索是通过考虑知识源中段落的用语篇表达的句子表达来执行的。 作者的方法在两个著名的数据集SQuAD-Open和HotpotQA上达到了最先进的性能,它们分别作为我们的单跳和多跳开放域QA基准


本文主要研究多文本的多跳查询问题,亮点就在于本文提出模型的Reformulation层,使得多跳的每一次查询的查询向量独特,如下图所示


Reading Wikipedia to Answer Open-Domain Questions

本文建议使用Wikipedia作为唯一知识源来解决开放域问题的回答:任何事实类问题的答案都是Wikipedia文章中的文本范围。 大规模的机器阅读任务将文档检索(查找相关文章)与机器理解文本(识别这些文章的答案范围)的挑战结合在一起。 我们的方法将基于bigram哈希和TF-IDF匹配的搜索组件与经过训练以检测Wikipedia段落中的答案的多层递归神经网络模型相结合。 我们在多个现有质量检查数据集上的实验表明,(1)两个模块相对于现有模块都具有很高的竞争力,(2)使用远程监督对其组合进行多任务学习是完成这一艰巨任务的有效完整系统
模型分为两个部分,第一部分是document检索部分,用于检索与问题相关的文章,之后在通过document阅读器来进行文章信息的提炼


retriever主要是TF-IDF的运用,阅读器运用了比较火的注意力机制的文本阅读理解模型。这篇文章开辟了一个QA的新领域,即开放域QA的研究
本文解决的问题是Machine Reading at Scale,使用维基百科作为唯一知识源,提出了一种解决开放式问题的方法,使得机器能以更加灵活的方式回答问题。这个大规模机器阅读 (machine reading at scale MRS) 的任务结合了文件检索(找相关文章)和机器文本理解(识别答案所对应文本)。相比较于单任务学习,使用多任务学习 (multitask learning) 和distant supervision可以在多个任务上实现性能提升

Question Answering through Transfer Learning from Large Fine-grained Supervision Data

这篇主要运用的方法就是迁移学习,把span-level的数据集上的预训练模型运用于sentence-level可以有很不错的效果。
作者的研究表明,问题解答(QA)的任务可以大大受益于在不同的大型,细粒度QA数据集上训练的模型的转移学习。 通过SQuAD的基本迁移学习技术,作者在两个经过充分研究的QA数据集WikiQA和SemEval-2016(任务3A)中达到了最先进的水平。 对于WikiQA,该模型比以前的最佳模型高出8%以上。这篇文章证明了,通过定量结果和视觉分析,比起粗略的监督,更好的监督为学习词汇和句法信息提供了更好的指导。 我们还表明,类似的转移学习程序可以在一项附带任务上达到最新水平

BERT with History Answer Embedding for Conversational Question Answering

会话搜索是信息检索社区中一个新兴的话题。多回合会话搜索的主要挑战之一是对会话历史进行建模以回答当前问题。现有的方法或者将历史记录放在当前问题之前,或者使用复杂的注意力机制来对历史记录进行建模。提出了一种概念上简单但高效的方法,称为历史答案嵌入。它可以将对话历史记录无缝集成到基于BERT(来自变压器的双向编码器表示)构建的对话问题回答(ConvQA)模型中。



本文主要是BERT在QA、多轮对话领域中的运用,强调了对话历史信息对于QA的作用。结果表明这样的模型有一定的提升,但是提升不是特别显著

基于知识图谱、知识库的QA研究

An End-to-End Model for Question Answering over Knowledge Base with Cross-Attention Combining Global Knowledge

随着网络上知识库(KB)的快速增长,如何充分利用它们变得越来越重要。基于知识库的问题解答(KB-QA)是访问大量知识的有前途的方法之一。同时,随着基于神经网络(基于NN)的方法的发展,基于神经网络的KB-QA已经取得了令人印象深刻的结果。但是,以前的工作并没有更多地关注问题表示,并且无论其候选答案如何,问题都会转换为固定向量。这种简单的表示策略很难表达问题中的正确信息。因此,作者提出了一种端到端的神经网络模型,通过交叉注意机制,动态地根据各种候选答案方面来表示问题及其相应的分数。


本文的创新之处在于针对问题的表示做了比较多的关注,并且将问题和候选答案联系起来,动态的表示问题,这样能够使得问题的表示更加具有意义,使得问题的回答更加准确

Querying NoSQL with Deep Learning to Answer Natural Language Questions

如今,几乎所有知识都存储在数据库中,因此只能在领域特定的查询语言的帮助下进行访问,从而极大地限制了可以访问数据的人员的数量。 在本文的工作中,作者演示了一个端到端的可训练问题解答(QA)系统,该系统允许用户使用自然语言来查询外部NoSQL数据库。 这种系统的主要挑战是数据库操作的不可区分性,我们通过应用基于策略的强化学习克服了这一难题。 我们在Facebook的bAbI电影对话数据集上评估了我们的方法,与几种基准模型相比,我们获得了84.2%的竞争得分。 我们得出结论,我们的方法在知识驻留在外部数据库中且中间标签的成本太高而无法收集非端到端可培训QA系统的现实世界场景中表现出色


本文的特点主要在于使用了强化学习来进行模型的学习。这项工作将AI技术(即基于注意力的指针网络)与完善的NoSQL数据库Elasticsearch集成在一起。 我们的端到端可训练的硬KB查找SeqPolicyNet模型优于“电影对话”数据集上的几个基线模型。 如果为每个问题类别提供足够的样本,SeqPolicyNet甚至可以对训练期间看不见的问题模式进行泛化

整合文本和KB的QA研究

Answering Complex Questions by Joining Multi-Document Evidence with Quasi Knowledge Graphs

直接回答涉及多个实体和关系的问题对于基于文本的质量检查是一个挑战。当只能通过结合多个文档中的证据才能找到答案时,这个问题最为突出。策展的知识图(KGs)可能会产生很好的答案,但受到其固有的不完整性和潜在的陈旧性的限制。本文介绍了QUEST,这种方法可以通过计算来自不同文档的部分结果的相似性连接,直接从文本源中直接回答复杂问题。我们的方法完全不受监督,避免了训练数据瓶颈,并且能够应对用户问题中快速发展的临时主题和公式化样式。 QUEST使用节点和边缘权重构建一个嘈杂的准KG,由动态检索的实体名称和关系短语组成。它通过类型和语义对齐来扩充该图,并通过Group Steiner树算法计算最佳答案。作者根据复杂问题的基准对QUEST进行评估,并证明它大大优于最新的基准
在文章中作者还指出了基于KB和文本的问答系统的优缺点进行了一个总结。
本文主要是将文本和KB进行结合来回答复杂的问题,通过OPENIE来构建一个知识图谱进行结合

Improving Question Answering over Incomplete KBs with Knowledge-Aware Reader

作者提出了一种新的端到端问题回答模型,该模型学习从不完整的知识库(KB)和一组检索到的文本摘要中汇总回答证据。 在假设结构化知识库更易于查询并且获得的知识可以帮助理解非结构化文本的假设下,我们的模型首先从与问题相关的知识库子图中积累实体的知识; 然后在潜在空间中重新编写问题,并阅读具有积累的实体知识的文本。 最终将KB和文本的证据汇总起来以预测答案。 在广泛使用的KBQA基准WebQSP上,我们的模型在不同程度的KB不完整程度之间实现了持续改进


本文的特色在于把KB和Document结合,这边是分别两个reader来处理KB和document,最后用两者得到的信息来预测最后的答案

提出新的QA数据集

ELI5: Long Form Question Answering

作者引入了第一个用于长篇问答的大型语料库,这是一项需要对开放式问题进行详尽而深入的回答的任务。 该数据集包含来自Reddit论坛“像我一样五岁的孩子”(ELI5)的270K线程,其中一个在线社区提供了对五岁孩子可以理解的问题的答案。 与现有数据集相比,ELI5包含需要多语句答案的各种问题。 作者提供了大量的网络文档来帮助回答问题。 自动和人工评估表明,经过多任务目标训练的抽象模型优于传统的Seq2Seq,语言建模以及强大的抽取基线。 但是,作者的最佳模型仍然离人类表现还差得远,因为评估者在超过86%的情况下更喜欢黄金反应,从而为未来的改进留有充足的机会。

下图是一个例子

DuReader: a Chinese Machine Reading Comprehension Dataset from Real-world Applications

见数据集整理

中文相关

Lattice CNNs for Matching Based Chinese Question Answering

短文本匹配经常面临两个文本之间存在巨大的词不匹配和表达多样性的挑战,在像中文这样的语言中,由于没有自然的空间来明确地分割词,这种情况会进一步加剧。 在本文中,作者提出了一种新颖的基于格网的CNN模型(LCN),该模型利用了单词格网中固有的多粒度信息,同时保持了强大的能力来处理引入的基于匹配的中文杂音信息。 作者对基于文档的问答和基于知识的问答任务都进行了广泛的实验,实验结果表明,LCN模型可以通过更好地利用以下优势而大大胜过最新的匹配模型和强大的基准 从单词点阵输入中提取丰富但有区别的信息的能力。



这篇文章主要解决了中文问答系统中对于单词不能很好匹配的问题,使用了词网格这一技术,对中文单词匹配做了优化,根据详细的实验可以得出,论文所提出的词网络的粉刺方法有着更好的效果。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。