ChatGPT 介绍

ChatGPT

核心思想

虽然我们难以用规则刻画怎样的回答才算“没有偏见、基于客观事实、对用户有帮助”，但我们人类能够写出这样的回答，也能够判断两条回答中哪一条更优。
因此我们可以人工标注一批数据，训练一个打分模型（Reward Model）对我们的目标进行建模。打分模型可以对不同的回复进行打分：分值越高的回复，其质量越高，越满足我们的标准。
默认语言模型生成的回复，有的分高，有的分低。我们可以设法微调优化该模型（Reinforce Learning），使其生成的回复在打分模型里得分尽可能高。
上面的思想可以转化成如下具体步骤：

步骤	训练语料	训练目标	输入模型	输出模型
Step0	互联网语料	语言模型	-	GPT3
Step1	问题及人工撰写的标准回答	语言模型	GPT3	微调后的GPT3
Step2	人工对模型生成回复的排序	排序	微调后的GPT3	打分模型
Step3	模型自动生成	提升打分模型打分	微调后的GPT3	ChatGPT

训练数据

SFT数据集

SFT数据集是用来训练第1步有监督的模型，即使用采集的新数据，按照GPT-3的训练方式对GPT-3进行微调。因为GPT-3是一个基于提示学习的生成模型，因此SFT数据集也是由提示-答复对组成的样本。SFT数据一部分来自使用OpenAI的PlayGround的用户，另一部分来自OpenAI雇佣的40名标注工(labeler)。并且他们对labeler进行了培训。在这个数据集中，标注工的工作是根据内容自己编写指示，并且要求编写的指示满足下面三点：

简单任务：labeler给出任意一个简单的任务，同时要确保任务的多样性；
Few-shot任务：labeler给出一个指示，以及该指示的多个查询-相应对；
用户相关的：从接口中获取用例，然后让labeler根据这些用例编写指示。

示例：

RM数据集

RM数据集用来训练第2步的奖励模型，我们也需要为InstructGPT/ChatGPT的训练设置一个奖励目标。这个奖励目标不必可导，但是一定要尽可能全面且真实的对齐我们需要模型生成的内容。很自然的，我们可以通过人工标注的方式来提供这个奖励，通过人工对可以给那些涉及偏见的生成内容更低的分从而鼓励模型不去生成这些人类不喜欢的内容。InstructGPT/ChatGPT的做法是先让模型生成一批候选文本，让后通过labeler根据生成数据的质量对这些生成内容进行排序。

PPO数据集

InstructGPT的PPO数据没有进行标注，它均来自GPT-3的API的用户。不同用户提供的不同种类的生成任务，其中占比最高的包括生成任务(45.6%)，QA(12.4%)，头脑风暴(11.2%)，对话(8.4%)等。

训练任务

有监督微调（SFT）

这一步的训练和GPT-3一致，而且作者发现让模型适当过拟合有助于后面两步的训练。

奖励模型（RM）

因为训练RM的数据是一个labeler根据生成结果排序的形式，所以它可以看做一个回归模型。RM结构是将SFT训练后的模型的最后的嵌入层去掉后的模型。它的输入是prompt和Reponse，输出是奖励值（标量）。

具体的讲，对于每个prompt，InstructGPT/ChatGPT会随机生成 K个输出（ 4≤K≤9 ），然后它们向每个labeler成对的展示输出结果，也就是每个prompt共展示 $C_k^2$ 个结果，然后用户从中选择效果更好的输出。在训练时，InstructGPT/ChatGPT将每个prompt的 $C_k^2$ 个响应对作为一个batch，这种按prompt为batch的训练方式要比传统的按样本为batch的方式更不容易过拟合，因为这种方式每个prompt会且仅会输入到模型中一次。

奖励模型的损失函数如下表示：
$loss = -\frac{1}{C_{K}^{2}}E_{(x, y_w, y_l)\sim D}\left [ log(\sigma(r_\theta (w, y_w)-r_\theta (w, y_l))) \right ]$

损失函数的目标是最大化labeler更喜欢的响应和不喜欢的响应之间的差值。其中 $r_\theta(x, y)$ 是提示 $x$ 和响应 $y$ 在参数为 $\theta$ 的奖励模型下的奖励值， $y_w$ 是labeler更喜欢的响应结果， $y_l$ 是labeler不喜欢的响应结果。 $D$ 是整个训练数据集。

强化学习模型（PPO）

训练目的：以SFT为初始策略，基于RM对策略打分，使用强化学习优化策略，得到强化版本的模型PPO。

InstructGPT/ChatGPT通过结合人工标注，将强化学习引入到预训练语言模型是这个算法最大的创新点。
PPO的训练集完全来自API。它通过第2步得到的奖励模型来指导SFT模型的继续训练。很多时候强化学习是非常难训练的，InstructGPT/ChatGPT在训练过程中就遇到了两个问题：

问题1：随着模型的更新，强化学习模型产生的数据和训练奖励模型的数据的差异会越来越大。作者的解决方案是在损失函数中加入KL惩罚项（如下所示），来确保PPO模型的输出和SFT的输出差距不会很大。
$\beta log\left ( \pi _\phi ^{RL}(y|x)/\pi^{SFT}(y|x) \right )$
问题2：只用PPO模型进行训练的话，会导致模型在通用NLP任务上性能的大幅下降，作者的解决方案是在训练目标中加入了通用的语言模型目标（如下所示），这个变量在论文中被叫做PPO-ptx。
$\gamma E_{x\sim D_{pretrain}}\left [log( \pi _\phi ^{RL}(x)) \right ]$

综上，PPO的训练目标如下所示。
$objective(\phi )=E_{(x,y)\sim D_{\pi_\phi }^{RL}}\left [ r_\theta (x, y) - \beta log\left ( \pi _\phi ^{RL}(y|x)/\pi^{SFT}(y|x) \right )\right] + \gamma E_{x\sim D_{pretrain}}\left [log( \pi _\phi ^{RL}(x)) \right ]$

其中：

$r(x, y)$ 即为奖励模型对（x, y）的打分。奖励模型在本阶段的训练中参数冻结。
$\pi_{\phi}^{\textrm{RL}}$ 称为策略模型，包含可训练的模型参数 $\phi$ ，从微调后的GPT3中初始化得到。
$\pi^{\textrm{SFT}}$ 为微调后的GPT3模型，它在本阶段的训练中参数冻结。
$\mathrm{KL}\Big(\pi^{RL}_{\phi}, \pi^{SFT}\Big)$ 为两个模型在相同输入的情况下生成的句子结果的分布的差异，以KL散度为度量

参考文献

最后编辑于：2024.12.09 11:07:39

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 230,182评论 6赞 543
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 99,489评论 3赞 429
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 178,290评论 0赞 383
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 63,776评论 1赞 317
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 72,510评论 6赞 412
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 55,866评论 1赞 328
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 43,860评论 3赞 447
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 43,036评论 0赞 290
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 49,585评论 1赞 336
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 41,331评论 3赞 358
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 43,536评论 1赞 374
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 39,058评论 5赞 363
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 44,754评论 3赞 349
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 35,154评论 0赞 28
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 36,469评论 1赞 295
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 52,273评论 3赞 399
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 48,505评论 2赞 379