论文阅读笔记:PRD: Peer Rank and Discussion Improve Large Language Model based Evaluations

AI对齐综述中提及的一种评估方式,有点兴趣,看一下。

(一)motivation:

评价alignment的方法目前都是用人工评价,或者是用最好的LLM来评价,但这样的方法很昂贵,而且也会引发一系列问题。因此作者提出了两种方法。第一种是同行排名(PR),改进了每个同行LLM对 answer pair的成对偏好(比如倾向于偏好第一个、喜欢很长的废话、自我增强【更加偏向于自己的回答】);第二种是同行讨论(PD),让两个LLM可以“达成共识”。

数据集:

PR:Vicuna80

PD:Vicuna80、 LFQA

(二)方法论:

Part1.同行排名(PR)方法:


图 1:同行排名流程 (PR),其中每个模型既充当评审者(A、B、C)又充当参赛者(1、2、3)。从参赛者之间的战斗(成对比较)中,它会产生自我排名。在本例中,模型A、B、C分别代表GPT-4、Bard和Claude。

计算矩阵的办法:

1.计算一系列的战斗评分:

a set of battle reviews

对s的解释:


s表示

s的含义是,使用模型r作为reviewer时,比较模型i和模型j对于问题q的答案的好坏。在这里坐着使用-1表示前一个(i)的答案更好,0表示不相上下,1表示后一个(j)的答案更好。

请注意,在后文的表示中,s的表示方式是K_{r}^{ij}(q)

其他的一些严谨说明:

Q:问题集  C:参加“比赛”的所有模型 R:参与评审的所有模型

2.胜率计算/ELO计算:

①ELO计算:

基本胜率计算:胜利次数/总参赛次数,如果平手,则按照获胜0.5次纳入。

胜率计算立足点:更好的模型应该具有更好的评判能力,因此其作为reviewer时评分的结果应该具有更高的权重。

胜率计算思想:在每一次迭代时,用当前权重计算各个参赛者的胜率,并用线性缩放到[0,1]范围。然后再次缩放使得总和为1,并作为下一次胜率计算的权重。

正式计算:

(1)初始的W_{r}^c = (模型c的获胜次数+平局次数/2)/ 总次数,也就是如下的公式:

W计算

f():表示一种映射,也就是将评价的分数按照我们说的(-1,0,1)的结果变成(0,0.5,1),也就是f(score)=(score+1)/2

注意,这里不是只比一次,而是将成对的答案换顺序后再次输入reviewer模型中(所以第一次是dc,第二次是cd),而换了顺序之后,自然也要用负数写进去。

同一组要换顺序评价两次的原因是为了减缓reviewer对第一个答案的偏好(我猜的。)

分母部分就很好理解,总比赛次数嘛。

(2)权重计算

最开始的权重都是1/|R|,后面更新如下所示。

权重更新

两次缩放,分步公式如下:先全部缩放到0-1,再统一缩放保证和为1

缩放

②ELO计算:在权重更新上的逻辑和前面一样,计算每个模型的elo分数,然后以elo分数作为下一次的权重。具体ELO计算参考附录:

附录中的elo分数介绍

emm……这里的几个参数可以从CSDN里来看:

CSDN的描述

Part2. PD方法

正文部分写的非常的简单,基本都是prompt工程,过程如下:

(1)对于模型A和B,先分别生成初始的评论。

(2)把A和B初始的评论合并,再一次整合,分别输入给A和B(注意,如果是输入A,就是先输入A初始评论再输入B的初始评论,如果是输入B,就是先输入B初始评论再输入A的初始评论。)

(3)如果A和B生成了相同的结论,则结束,否则把对方的评价再次输入给对方,实现“对话”。

(三)实验:

PR:在进行实验前,对于Vicuna80数据集进行了Fleiss K的说明,由于其在0.4左右,所以认为人为标注的结果相对来说不存在因不同标注者而导致的一些标注分歧。

(1)对目前的组合:

表 2:全球排名相关结果。上表显示了 LLM 基于审稿人的排名与人工评分者排名之间的相关性。下表显示了全球胜率之间的相关性。粗体数字最接近人类评分者的分数。蓝色数字显示LLM评审员和人工评审员的分数之间的差异。

从这里面得到了统一的排序:

GPT-4 > Claude > Vicuna > GPT-3.5 > Bard

使用winrate方式下的PR方法得到的实验结果和baseline相比,全部模型参与评分后的结果更好:

示例级相关结果,对于第四行和第五行,我们采用同行评审者的多数票按胜率加权。

此外,还发现在单独评价时,GPT-4有自我增强的现象:


GPT-4自我增强

而PR方法+elo的模式相比于GPT-4单一打分,在ELO上的指标更接近人类打分(也就是说,自我增强的情况会好一些。):

GPT-4 Elo 在 Vicuna80 数据集上每 100 场战斗都会得分。 GPT-4 审阅者提供的 Elo 分数始终高于人类评分,而我们的所有(加权)评分与人类良好相关。


二、PD方法:

用GPT-4和Claude。

实验结果说明:GPT-4 lead指GPT-4率先发表意见、Claude lead指Claude率先发表意见,Random是随机的。


实验结果

看的出来,如果只是单纯用PD,没法提高。不过,如果用了明确的方面(explicit critieria)会有显著提升,如果再加上角色的说明(也就是reviewer还是参赛者),还会有一点提升。

更进一步地大量实验:

LFQA上的大量实验

一些分析:

提出的方法改善了自我偏见(包括GPT-4会帮助GPT-3的答案取得更好排名的情况)以及对于第一个位置的答案更加偏好的问题。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,922评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,591评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,546评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,467评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,553评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,580评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,588评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,334评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,780评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,092评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,270评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,925评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,573评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,194评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,437评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,154评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,127评论 2 352

推荐阅读更多精彩内容