两个衡量标准:语义相关性和压缩比
语义分布相关性 Semantic Distribution Correlation (SDC):自回归语言模型
有一个文档 D = {x1, x2, ..., xn},将联合概率因式分解为条件概率的乘积,并以此表示D,式子如下
在自回归语言模型中,以此作为D的语义信息,但这里我们用p(xt|x<t)来表示xt的语义并且使用一个向量P(D)来表示由语言模型生成的D的语义分布,如式(2)所示:
摘要S由令牌y组成,使用语言模型以S为提示来预测D。摘要越好,文章的还原效果越好。我们根据S计算D的语义分布:
将P(D)与P(D|S)之间的相关性作为对摘要S的评估分数:
其中Corr用的是皮尔逊相关系数,这个系数是用于度量两个变量X和Y之间的相关性(线性相关),其值介于-1与1之间。W(D, S)表示通过给定摘要S能预测出源文本D的程度。生成的摘要越好,W(D, S)分数越高,注意,其中Cnorm ∈ [0, 1),在计算的过程中需要进行归一化处理。因此,SDC的值越大,生成摘要的质量越好。
带压缩比的SDC
压缩比反映了生成摘要的难度,计算公式为CR(D, S) = L(S) / L(D),其中,L表示文本的长度,即压缩比等于摘要的长度除以源文本的长度。如果L(S)大于L(D),CR(D, S)的值为1。显然,生成的摘要越短难度越高,下面我们将压缩比引入SDC的计算:
上面的式子使得有较高语义分布相关性和较低压缩比的摘要在模型中获得较高的分数。
实验方法
1、数据集:由源文本、基于不同模型生成的摘要和人工注释的分数组成的两个数据集,分别为CNN/Daily Mail (CNNDM)、TAC 2010 (TAC)
2、基线:4个基于参考的评价指标,ROUGE-1 (R-1),ROUGE-2 (R-2) 和 ROUGE-L (R-L)的F1分数、BLEU、METEOR (MET.)、BERTScore(BERT.),2个无参考的评价指标,BLANC (BLA.)、Shannon (Shan.)。
参考文献:Reference-free Summarization Evaluation via Semantic Correlation and Compression Ratio