欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 科技 > IT业 > 【写作科研化】LongWriter: Unleashing 10,000+ Word Generation From Long Context LLMs

【写作科研化】LongWriter: Unleashing 10,000+ Word Generation From Long Context LLMs

2025/3/19 0:31:09 来源:https://blog.csdn.net/sinat_33455447/article/details/146310256  浏览:    关键词:【写作科研化】LongWriter: Unleashing 10,000+ Word Generation From Long Context LLMs

基本信息

论文全名:LongWriter: Unleashing 10,000+ Word Generation From Long Context LLMs
论文链接:https://arxiv.org/pdf/2408.07055
论文代码:https://github.com/THUDM/LongWriter
数据集链接:https://huggingface.co/datasets/THUDM/LongWriter-6k
模型链接:

  • LongWriter-glm4-9b:https://huggingface.co/THUDM/LongWriter-glm4-9b
  • Llama-3.1-8B:https://huggingface.co/THUDM/LongWriter-llama3.1-8b

总评价:比较有参考性的一篇文章,思路清晰,而且公开了数据、模型和代码

概述

研究背景

当前的大规模长上下文语言模型(LLMs)已经可以处理长达 100,000 tokens 的输入,但在 输出长度 上却存在明显的瓶颈,大多数模型难以生成超过 2,000 词的文本。许多现有 SFT(Supervised Fine-Tuning)数据集中的示例长度有限,这限制了模型的生成能力。

研究目标

本文的目标是:

  1. 分析 长上下文 LLMs 生成长度受限的原因。
  2. 提出 AgentWrite 方法,以 任务拆解 方式让 LLM 生成超长文本(20,000 词以上)。
  3. 构建 LongWriter-6k 数据集,提供 6,000 份 超长 SFT 数据(2,000 - 32,000 词)。
  4. 训练 长文本生成能力增强的 LLM,并通过 LongBench-Write 评估基准进行测评。

创新点

  1. 发现关键限制:输出长度受 SFT 数据长度约束,而非预训练阶段的上下文窗口长度。
  2. 提出 AgentWrite:基于代理(agent-based)的长文本生成流程,采用计划-写作策略。
  3. 构建 LongWriter-6k:首次大规模构建 10,000+ 词级别的 SFT 数据集,使 LLM 生成长文本成为可能。
  4. 提出 LongBench-Write 评测基准:针对超长文本生成能力,系统性评估 LLM 的长文本生成质量。

相关工作

主要理论

  • 研究表明 LLMs 的上下文窗口越长,理解能力越强(Xiong et al., 2024)。
  • 然而,尽管 LLMs 可以处理长输入,但它们的 输出能力受限于 SFT 训练数据的长度,通常无法超过 2,000 词。

关键技术

  1. Supervised Fine-Tuning(SFT):模型在微调过程中,输出长度受训练数据集的长度影响。
  2. Direct Preference Optimization(DPO):用于对 LLMs 进行对齐,使其遵循长文本生成需求。
  3. Divide-and-Conquer(任

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

热搜词