欢迎来到尧图网

客户服务关于我们

您的位置：首页 > 新闻 > 社会 > NLP论文速读（ICML 2024）|面相对齐大语言模型的迁移和合并奖励模型方法

NLP论文速读（ICML 2024）|面相对齐大语言模型的迁移和合并奖励模型方法

2026/3/20 19:02:47 来源：https://blog.csdn.net/2401_85576118/article/details/144446165 浏览: 次关键词：NLP论文速读（ICML 2024）|面相对齐大语言模型的迁移和合并奖励模型方法

论文速读|Transforming and Combining Rewards for Aligning Large Language Models

论文信息：

简介：

本文探讨了如何使大型语言模型（LLMs）与人类偏好对齐。传统的对齐方法是先从偏好数据中学习一个奖励模型，然后使用这个奖励模型来更新语言模型。这种方法的背景是，我们希望语言模型的输出具有某些期望的属性，例如有帮助、无害、真实或有创造性。然而，这种方法面临两个主要问题：奖励模型的单调变换如何影响对齐效果，以及如何将多个奖励模型结合起来以对齐到多个属性。

本文的动机是通过概率解释对齐过程来改进语言模型的对齐效果。作者认为，对齐的目标是使模型输出符合特定属性的后验分布。因此，对齐到多个属性的目标是生成在所有属性上都“好”的输出样本。这种概率解释需要定义输出何时被认为是“好”的。在从偏好数据中学习的奖励模型的背景下，作者认为如果输出的奖励值大于某个特定于提示的参考值，则该输出是“好”的。

论文方法：

本文提出了一种称为“LSC-变换”（log-sigmoid-centered transformation）的方法来变换奖励模型。这种方法包括以下步骤：

对齐目标的形式化：首先定义对齐目标，即生成在特定属性上被认为是“好”的输出样本的分布。

奖励变换：作者推导出一种自然的变换选择，即对中心化的奖励应用log-sigmoid函数。这种变换有两个重要属性：

强调改进表现不佳的输出：通过减少非常高奖励值的边际效用，鼓励模型改进表现不佳的提示，并阻止模型通过优化超出奖励模型有效范围的奖励来进行“奖励黑客攻击”。

奖励的合理聚合：通过将变换后的奖励求和来实现逻辑与（AND）操作，即变换后的奖励之和对应于输出在所有测量属性上都是“好”的概率。

论文实验：

Figure 3展示了使用变换后的奖励与未变换的奖励进行对齐时的改进情况。图中比较了两种评估策略下的对齐模型相对于SFT（Supervised Finetuning）模型的胜率。

评估策略包括：

1）使用由PALM-2评估器判断的提示，比较对齐策略和随机SFT样本之间的胜率。

2）使用T5-XXL评估器，与SFT分位数（帮助性为85%，无害性为95%）进行比较的胜率。

结果显示，使用变换后的奖励进行对齐在所有KL距离水平上均优于使用原始奖励进行对齐。

论文链接：

https://arxiv.org/pdf/2402.00742

版权声明:

本网仅为发布的内容提供存储空间，不对发表、转载的内容提供任何形式的保证。凡本网注明“来源：XXX网络”的作品，均转载自其它媒体，著作权归作者所有，商业转载请联系作者获得授权，非商业转载请注明出处。

我们尊重并感谢每一位作者，均已注明文章来源和作者。如因作品内容、版权或其它问题，请及时与我们联系，联系邮箱：809451989@qq.com，投稿邮箱：809451989@qq.com

相关资讯

热文排行

最新新闻

推荐新闻

热搜词