欢迎来到尧图网

客户服务关于我们

您的位置：首页 > 汽车 > 时评 > ReFT: reasoning with reinforced Fine-Tuning

ReFT: reasoning with reinforced Fine-Tuning

2025/2/24 15:28:00 来源：https://blog.csdn.net/adreammaker/article/details/141367581 浏览: 次关键词：ReFT: reasoning with reinforced Fine-Tuning

在这里插入图片描述

从一个question中看到多种多样的cot，都可以从中学习。
offline self-training

在这里插入图片描述

数据的质量是模型自己来定义的。

思考增加或者减少一条数据，对于模型训练的影响。
用influence function来衡量新增一条数据对于模型训练的整体的影响。

高质量的数据能够对模型产生正向的影响。
高质量的数据能够对主题产生正向的支持/反对。
使用最后一层MLP的梯度，聚类找出

在这里插入图片描述
对比随即筛选和reward model筛选（开源的，用于对齐人类便好）。

在这里插入图片描述

版权声明:

本网仅为发布的内容提供存储空间，不对发表、转载的内容提供任何形式的保证。凡本网注明“来源：XXX网络”的作品，均转载自其它媒体，著作权归作者所有，商业转载请联系作者获得授权，非商业转载请注明出处。

我们尊重并感谢每一位作者，均已注明文章来源和作者。如因作品内容、版权或其它问题，请及时与我们联系，联系邮箱：809451989@qq.com，投稿邮箱：809451989@qq.com

相关资讯

热文排行

最新新闻

推荐新闻

热搜词