欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 汽车 > 时评 > ReFT: reasoning with reinforced Fine-Tuning

ReFT: reasoning with reinforced Fine-Tuning

2024/10/25 14:31:59 来源:https://blog.csdn.net/adreammaker/article/details/141367581  浏览:    关键词:ReFT: reasoning with reinforced Fine-Tuning

在这里插入图片描述
在这里插入图片描述
从一个question中看到多种多样的cot,都可以从中学习。
offline self-training

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
数据的质量是模型自己来定义的。
在这里插入图片描述
在这里插入图片描述
思考增加或者减少一条数据,对于模型训练的影响。
用influence function来衡量新增一条数据对于模型训练的整体的影响。
在这里插入图片描述
在这里插入图片描述
高质量的数据能够对模型产生正向的影响。
高质量的数据能够对主题产生正向的支持/反对。
使用最后一层MLP的梯度,聚类找出

在这里插入图片描述
对比随即筛选和reward model筛选(开源的,用于对齐人类便好)。
在这里插入图片描述

在这里插入图片描述

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com