The Basic Concepts of Summarization

文本摘要技术是利用计算机自动实现文本分析、内容归纳和摘要自动生成的技术。

文本自动摘要的基本分类

文本自动摘要的分类方法有很多，根据原文语言种类划分，可以分为单语言照耀和跨语言摘要；根据输入文本的数量划分，文本摘要技术可以分为单文档摘要和多文档摘要；根据文摘和原文的关系划分，可以分为摘录式(extraction)文摘和理解式(abstraction)文摘。摘录型文摘由原文中抽取出来的片段组成，理解型文摘是对原文只要内容重新组织后形成的。

文本自动摘要的基本步骤

一般来说，自动文摘过程包括三个基本步骤：

1.文本分析过程：对原文进行分析处理，识别出冗余信息；

2.文本内容的选取和泛化过程：从文档中辨认重要信息，通过摘录或概括的方法压缩文本，或者通过计算分析的方法形成文摘表示；

3.文摘的转换和生成过程：实现对原文内容的重组或者根据内部表示生成文摘，并确保文摘的连贯性

文摘的输出形式依据文摘的用途和用户需求确定。不同的系统所采用的具体实现方法不同，因此在不同的系统中，上述几个模块所处理的问题和采用的方法也有所差异。

文本自动摘要的基本问题

在单文档摘要系统中，一般都采取基于抽取的方法。而对于多文档而言，由于在同一个主题中的不同文档中不可避免地存在信息交叠和信息差异，因此如何避免信息冗余，同时反映出来自不同文档的信息差异是多文档文摘中的首要目标，而要实现这个目标通常以为着要在句子层以下做工作，如对句子进行压缩，合并，切分等。另外，单文档的输出句子一般是按照句子在原文中出现的顺序排列，而在多文档摘要中，大多采用时间顺序排列句子，如何准确的得到每个句子的时间信息，也是多文档摘要需要解决的一个问题。

正如前面所说，自动文摘过程包含三个基本步骤，实现这些基本步骤的方法可以使基于句子抽取的，也可以是基于内容理解的。无论哪种方法，都必须面对三个关键问题：

1、文档冗余信息的识别与处理

2、重要信息的辨认

3、生成文摘的连贯性

文本自动摘要的评价

人工评价

一千个读者，有一千个哈姆雷特

不同的人理解一篇文档会有很大的不同，基于人工评价的方法有类似于评价开放的文科辨析题目答案一样，需要从答案中寻找一些所谓的要点，计算要点的覆盖率，打分。人工评价结果在很大程度上都是可信的，因为人可以推理、复述并使用世界知识将具有类似意思但形式不同的文本单元关联起来，更加灵活一些，但是时间成本太高，效率太低。

自动评价

计算机评价效果，需要给定参考摘要作为标准答案，通过制定一些规则来给生产的摘要打分。目前使用最广泛的是ROUGH系统(Recall-Oriented Understudy for Gisting Evaluation),基本思想是将待审的摘要和参考摘要的n元组共现统计量作为评价作为评价依据，然后通过一系列标准进行打分。包括(ROUGH-N, ROUGH-L, ROUGH-W，ROUGH-S和ROUGH-SU)几个类型。通俗地将就是通过一些定量化的指标来描述待审摘要和参考文摘之间的相似性，维度考虑比较多，在一定程度上可以很好地评价Extracive产生的摘要。

这里涉及到一个重要的问题，就是标注语料的问题。自动评价需要给定一些列文档以及它们的参考摘要，用来测试不同的算法效果。TAC（Text Analysis Conference）和TREC（Text REtrieval Conference）两个会议提供了相关的评测数据集，自动文摘领域的paper都是以这些数据集为baseline，与其他paper的算法进行对比。会议的数据集毕竟有限，新的领域中做自动文摘需要建立自己的数据集作为标准。

现有的评价标准存在的一个重要问题在于没有考虑语义层面上的相似，评价extractive还好，但评价abstractive就会效果不好了。Deep Learning其实就是一个representation learning，将世界万物表示成数字，然后作分析。在词、句子甚至段落这个层面上的表示学习研究的非常多，也有很多的state-of-the-art的结果，所以做语义层面上的评价并不难。

文本自动摘要的语料

这里的语料分为两种，一种是用来训练深度学习模型的大型语料，一种是用来参加评测的小型语料。

1.DUC

这个网站提供了文本摘要的比赛，2001-2007年在这个网站，2008年开始换到这个网站TAC。很官方的比赛，各大文本摘要系统都会在这里较量一番，一决高下。这里提供的数据集都是小型数据集，用来评测模型的。

2、Gigaword

该语料非常大，大概有950w篇新闻文章，数据集用headline来做summary，即输出文本，用first sentence来做input，即输入文本，属于单句摘要的数据集。

3、CNN/Daily Mail

该语料就是我们在机器阅读理解中用到的语料，该数据集属于多句摘要。

4、Large Scale Chinese Short Text Summarization Dataset（LCSTS）

这是一个中文短文本摘要数据集，数据采集自新浪微博，给研究中文摘要的童鞋们带来了福利。

文本自动摘要的基本实现

目前文本摘要的研究主要集中在抽取方法，主要考虑摘要的信息压缩比、内容的覆盖率和平衡性、语句的多样性、整体的可读性等因素，这些因素直接影响自动文摘结果的好坏。具体的实现方法有基于特征的分析方法，基于潜在语义分析的方法，基于主题模型的方法，还有基于HMM的方法等，这部分主要参考Extractive Summarization. 近几年，由于深度学习在自然语言处理领域的流行，使得用深度学习的技术来实现文本摘要成为可能，这部分主要参考neural summarization.

最后编辑于：2017.12.04 13:19:52

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 210,914评论 6赞 490
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 89,935评论 2赞 383
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 156,531评论 0赞 345
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 56,309评论 1赞 282
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 65,381评论 5赞 384
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,730评论 1赞 289
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,882评论 3赞 404
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,643评论 0赞 266
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 44,095评论 1赞 303
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,448评论 2赞 325
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,566评论 1赞 339
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 34,253评论 4赞 328
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,829评论 3赞 312
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,715评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,945评论 1赞 264
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 46,248评论 2赞 360
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 43,440评论 2赞 348

The Basic Concepts of Summarization

推荐阅读更多精彩内容