欢迎来到尧图网

客户服务关于我们

您的位置：首页 > 房产 > 建筑 > 【LLM-推理】Self-Refine：使用feedback迭代修正LLM的Output

【LLM-推理】Self-Refine：使用feedback迭代修正LLM的Output

2024/10/24 15:13:46 来源：https://blog.csdn.net/weixin_57128596/article/details/140546229 浏览: 次关键词：【LLM-推理】Self-Refine：使用feedback迭代修正LLM的Output

来源： https://selfrefine.info/

1.论文速读(摘要+引言)

本文主要提出了Self-Refine策略，旨在通过一个LLM不断refine修正LLM的输出，使其在无需额外训练的情况下，在下游任务产生更好的效果。

该方法的直观Insight：我们在写一封 email 时，往往写出一个 draft，然后再修改其中措辞不当的地方，修改为更好的版本。
其思路如下图：
请添加图片描述

首先，给定一个 input x，在 prompt pgen下让 LLM 先生成一个初始 outputy0。
进行迭代，每一轮 t 中：
- Feedback：将 input x、上一轮 output y(t) 和 prompt p(fb)给 LLM，得到这一轮的 feedback f(bt)。【feedback的prompt】
- Refine：将 input x 、历史的所有 feedback 和 output、prompt P(refine) 给 LLM，得到这一轮的 output T(t+1)。【refine重新优化的prompt】

如此迭代，直到 feedback 中被检查出有stop标识符，或者达到了最大迭代次数。

2.方法 method

给定输入，self-refine生成最初的输出，根据该输出提出反馈，然后根据反馈优化输出。直到得到满意的答案。self-refine依靠LLM和三个prompts（生成输出的Prompt，生成反馈的Prompt，根据反馈优化输出的优化Prompt）
在这里插入图片描述

3.评估

主要在这几个任务进行评估：

对话生成
代码优化
代码可读性提升数学推理
反转情绪
缩写词生成
限制性生成

Metrics指标效果：
Math reasoning %解决率，code optimization:% 代码优化率，Acronym Generation：%受限生成
在这里插入图片描述

版权声明:

本网仅为发布的内容提供存储空间，不对发表、转载的内容提供任何形式的保证。凡本网注明“来源：XXX网络”的作品，均转载自其它媒体，著作权归作者所有，商业转载请联系作者获得授权，非商业转载请注明出处。

我们尊重并感谢每一位作者，均已注明文章来源和作者。如因作品内容、版权或其它问题，请及时与我们联系，联系邮箱：809451989@qq.com，投稿邮箱：809451989@qq.com

相关资讯

热文排行

最新新闻

推荐新闻

热搜词

【2024工业3D异常检测文献】LSFA: 面向三维工业异常检测的自监督特征适配消息队列的消息积压和消息波动区别关于使用 C# 处理水位数据多种格式的统一转换 MySQL优化手段有哪些 C# 实现进程间通信的几种方式（完善） windows SVN 忘记账号密码