WSDM 2023 | 针对长文档场景下的跨语言摘要

WSDM 2023 | 针对长文档场景下的跨语言摘要

转载自| PaperWeekly


对于给定源语言编写的文档,跨语言摘要的目的是用不同的目标语言生成相应的摘要。在全球化的背景下,跨语言摘要可以帮助人们从他们不熟悉的语言的文档中获取关键信息,从而提高信息获取的效率。因此,这一任务变得更加重要,并引起了广泛的研究关注。然而,目前的跨语言摘要工作通常集中于短文本场景。

本文构建了第一个针对长文档场景下的跨语言摘要数据集Perseus,包含 94k 个中文科技论文以及其对应的英文摘要。我们的数据集涉及四大学科,包括工程应用、自然科学、农业科学以及医药科学,文档的平均长度达到2872.9 个汉字。相关工作已经被WSDM 2023 接收。

 

论文标题:Long-Document Cross-Lingual Summarization

代码链接:https://github.com/LearnItBoy/Perseus

 

1

『研究背景』

现有的跨语言摘要数据集文档长度相对来说都比较短,比如常用的数据集Zh2EnSum [1],它的文档长度平均只有 103.7 个汉字,而相对来说文档长度较长的 En2ZhSum [1],它的平均文档长度也只有 755.0 个单词左右,远无法称为长文档。长文档通常包含上千个字词,比起短文档,它包含更多的信息与细节。构建一个长文档跨语言系统可以帮助人们快速理解长文档的内容,在实际场景中具有重大的意义。然而,由于缺乏相应的数据集,该任务仍未得到充分的探索。

为了跨语言摘要在长文档上的发展,我们构建了第一个长文档跨语言摘要数据集Perseus。我们通过爬取中文科技论文网站来获取到大量的科技论文资源,然后使用大量的解析方法与清理规则来对这些资源进行处理。最后得到 94k 个<中文文档,中文摘要,英文摘要>三元组。如图 1 所示是数据集的一个例子。除此之外我们根据 SportsSum [2] 这个体育赛事摘要数据集构建了一个科技论文领域外的测试集用来验证在 Perseus 上训练的模型的泛化性。



▲ 图1 Perseus的一个例子


表1 是 Perseus 数据集的基本信息以及其他跨语言摘要数据集的信息的对比。可以看出我们的数据集的文档长度远远超过现有的跨语言摘要数据集,并且目标摘要的长度也大于现有数据集。同时我们的数据集有着最高的压缩率,这意味着对跨语言摘要模型提取精炼内容的能力提出了更高的要求。


▲ 表1 数据集的基本信息

2

『实验与分析』

 

为了验证我们的数据集是否可行,我们在Perseus 上进行了大量的实验。我们采用了两种范式来进行实验,summarize-then-translate 的 pipeline 方法以及端到端 (end-to-end) 方法。其中 summarize-then-translate 分成了 extract-then-translate (ext-trans) 和 abstract-then-translate (abs-trans) 两种方法。采用的模型以及结果如表 2。


▲表2 实验效果

通过实验我们发现,abs-trans 的方法效果普遍好于 ext-trans 的方法,这是因为 abstractor 可以更灵活地根据文档中的重要句子生成新词或短语,而 extractor 不能对提取的句子进行任何修改。此外,pipeline 的方法中,模型的最后效果的好坏和采用的翻译模型的好坏高度相关。因此翻译模型的性能,特别是在长文档中错误积累倍数增加的情况下,尤为重要。

End-to-end 的方法在几乎所有的指标中都获得了最好的性能,这是由于 mLED [3] 方法以端到端方式进行翻译和摘要训练,不会出现错误传播问题。


3

『错误分析』

我们随机抽取了mLED 模型在测试集上的两百条结果并分析出主要的错误类型以及比例,如表 3 所示:1)信息缺失;2)信息冗余;3)生成信息不忠于原文;4)生成语义不明。


▲表3 摘要结果错误类型及比例

长文档跨语言摘要中的信息缺失和冗余的问题十分严重,这是由于随着文档的长度以及文档与摘要的压缩率的增加,文档的关键信息在文档中的分布变得稀疏,模型从文章中提取关键信息的难度就越来越高。

对于生成的信息不忠于原文的问题。例如,一份参考摘要称:“Fifty-eight patients with subaortic stenosis were treated surgically in our center from December 1996 to October 2019。”但生成的摘要是“The clinical data of 13 patients with congenital heart disease were retrospectively analyzed”。错误的引用主要是由远程依赖问题引起的。在生成摘要时,该模型需要跨越长距离地融合信息。然而,随着距离的增加,远程信息变得越来越模糊,导致容易生成错误的信息。

mLED 生成语义不明句子,例如“data mining is an important content of data mining.”“the results provide us with a basis to judge whether the sub-time series of time series with increasing and decreasing is the sub-time series with great increasing and decreasing.” 这些句子让人难以理解,通常涉及语法错误。模型处理长文档时的远程依赖性问题是造成这个错误的原因之一。此外,这个错误也暴露了当前生成模型在生成长文本方面的不足。

4

『总结』

在本文中,我们提出了长文档跨语言摘要任务,并构建了第一个长文档跨语言摘要数据集Perseus。该数据集具有文档长、摘要长、压缩率高的特点,为跨语言摘要提出了新的挑战。为了评估在我们的数据集上训练的长文档跨语言摘要模型的泛化性,我们还提供了一个体育领域的领域外测试集。

参考文献

[1] Junnan Zhu, Qian Wang, Yining Wang, Yu Zhou, Jiajun Zhang, Shaonan Wang, and Chengqing Zong. 2019. NCLS: Neural Cross-Lingual Summarization. In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing. 3054–3064. https://doi.org/10.18653/v1/D19-1302

[2] Jiaan Wang, Zhixu Li, Tingyi Zhang, Duo Zheng, Jianfeng Qu, An Liu, Lei Zhao, and Zhigang Chen. 2022. Knowledge Enhanced Sports Game Summarization. In Proceedings of the Fifteenth ACM International Conference on Web Search and Data Mining. 1045–1053. https://doi.org/10.1145/3488560.3498405

[3] Iz Beltagy, Matthew E Peters, and Arman Cohan. 2020. Longformer: The longdocument transformer. arXiv preprint arXiv:2004.05150 (2020).

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,406评论 6 503
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,732评论 3 393
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 163,711评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,380评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,432评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,301评论 1 301
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,145评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,008评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,443评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,649评论 3 334
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,795评论 1 347
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,501评论 5 345
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,119评论 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,731评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,865评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,899评论 2 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,724评论 2 354

推荐阅读更多精彩内容