欢迎来到尧图网

客户服务关于我们

您的位置：首页 > 文旅 > 美景 > [Arxiv 2024] Self-Rewarding Language Models

[Arxiv 2024] Self-Rewarding Language Models

2024/10/24 11:16:17 来源：https://blog.csdn.net/weixin_42437114/article/details/141552638 浏览: 次关键词：[Arxiv 2024] Self-Rewarding Language Models

Contents

Introduction
Method
Experiments
References

Introduction

作者提出 Self-Rewarding 训练框架，LLM 在训练过程中同时担任 actor 和 critic，actor 负责合成新数据，critic 负责判断合成数据质量用于组成高质量的偏好数据集用于模型的下一轮训练，在训练过程中，模型的 actor 和 critic 能力也会同步得到提升，从而逐步生成更高质量的数据并基于此不断迭代训练，使得 LLM 训练仅需少量人工标注数据，并获得 super-human feedback

Method

在这里插入图片描述

Initialization. 初始训练阶段需要一定量人类标注的 Seed instruction following data 和 Seed LLM-as-a-Judge instruction following data，使得预训练 LLM 获得一定的指令服从和回复质量评估能力
Self-Instruction Creation. 一轮训练完成后，LLM 可以自行生成 AI Feedback Training (AIFT) data 加入原始数据集用于下一轮训练. (1) 使用 few-shot prompting 生成新 prompts；(2) LLM 对每个 prompt 采样生成 $N$ 个 responses；(3) 通过 LLM-as-a-Judge 给每个 response 评分，然后选择评分最高和最低的 responses 组成 preference pairs 用于下一轮 DPO 训练

Experiments

Instruction Following Ability.
Reward Modeling Ability.

References

Yuan, Weizhe, et al. “Self-rewarding language models.” arXiv preprint arXiv:2401.10020 (2024).
code: https://github.com/lucidrains/self-rewarding-lm-pytorch

版权声明:

本网仅为发布的内容提供存储空间，不对发表、转载的内容提供任何形式的保证。凡本网注明“来源：XXX网络”的作品，均转载自其它媒体，著作权归作者所有，商业转载请联系作者获得授权，非商业转载请注明出处。

我们尊重并感谢每一位作者，均已注明文章来源和作者。如因作品内容、版权或其它问题，请及时与我们联系，联系邮箱：809451989@qq.com，投稿邮箱：809451989@qq.com

相关资讯

热文排行

最新新闻

推荐新闻

热搜词

c# grpc 保姆级教学搭建grpc框架服务端、客户端随笔——重温Java基础语法 2-131 基于matlab-GUI的光滑铰链连成双摆的运动轨迹模拟项目1 yolov5鱼苗检测计数 Pytho练习-day1 详细且系统的Spring Boot应用开发