欢迎来到尧图网

客户服务关于我们

您的位置：首页 > 科技 > IT业 > 【写作科研化】LongWriter: Unleashing 10,000+ Word Generation From Long Context LLMs

【写作科研化】LongWriter: Unleashing 10,000+ Word Generation From Long Context LLMs

2025/3/19 0:31:09 来源：https://blog.csdn.net/sinat_33455447/article/details/146310256 浏览: 次关键词：【写作科研化】LongWriter: Unleashing 10,000+ Word Generation From Long Context LLMs

基本信息

论文全名：LongWriter: Unleashing 10,000+ Word Generation From Long Context LLMs
论文链接：https://arxiv.org/pdf/2408.07055
论文代码：https://github.com/THUDM/LongWriter
数据集链接：https://huggingface.co/datasets/THUDM/LongWriter-6k
模型链接：

LongWriter-glm4-9b：https://huggingface.co/THUDM/LongWriter-glm4-9b
Llama-3.1-8B：https://huggingface.co/THUDM/LongWriter-llama3.1-8b

总评价：比较有参考性的一篇文章，思路清晰，而且公开了数据、模型和代码

概述

研究背景

当前的大规模长上下文语言模型（LLMs）已经可以处理长达 100,000 tokens 的输入，但在 输出长度 上却存在明显的瓶颈，大多数模型难以生成超过 2,000 词的文本。许多现有 SFT（Supervised Fine-Tuning）数据集中的示例长度有限，这限制了模型的生成能力。

研究目标

本文的目标是：

分析长上下文 LLMs 生成长度受限的原因。
提出 AgentWrite 方法，以 任务拆解 方式让 LLM 生成超长文本（20,000 词以上）。
构建 LongWriter-6k 数据集，提供 6,000 份 超长 SFT 数据（2,000 - 32,000 词）。
训练长文本生成能力增强的 LLM，并通过 LongBench-Write 评估基准进行测评。

创新点

发现关键限制：输出长度受 SFT 数据长度约束，而非预训练阶段的上下文窗口长度。
提出 AgentWrite：基于代理（agent-based）的长文本生成流程，采用计划-写作策略。
构建 LongWriter-6k：首次大规模构建 10,000+ 词级别的 SFT 数据集，使 LLM 生成长文本成为可能。
提出 LongBench-Write 评测基准：针对超长文本生成能力，系统性评估 LLM 的长文本生成质量。

相关工作

主要理论

研究表明 LLMs 的上下文窗口越长，理解能力越强（Xiong et al., 2024）。
然而，尽管 LLMs 可以处理长输入，但它们的 输出能力受限于 SFT 训练数据的长度，通常无法超过 2,000 词。

关键技术

Supervised Fine-Tuning（SFT）：模型在微调过程中，输出长度受训练数据集的长度影响。
Direct Preference Optimization（DPO）：用于对 LLMs 进行对齐，使其遵循长文本生成需求。
Divide-and-Conquer（任

版权声明:

本网仅为发布的内容提供存储空间，不对发表、转载的内容提供任何形式的保证。凡本网注明“来源：XXX网络”的作品，均转载自其它媒体，著作权归作者所有，商业转载请联系作者获得授权，非商业转载请注明出处。

我们尊重并感谢每一位作者，均已注明文章来源和作者。如因作品内容、版权或其它问题，请及时与我们联系，联系邮箱：809451989@qq.com，投稿邮箱：809451989@qq.com

相关资讯

热文排行

最新新闻

推荐新闻

热搜词