基本信息
论文全名:LongWriter: Unleashing 10,000+ Word Generation From Long Context LLMs
论文链接:https://arxiv.org/pdf/2408.07055
论文代码:https://github.com/THUDM/LongWriter
数据集链接:https://huggingface.co/datasets/THUDM/LongWriter-6k
模型链接:
- LongWriter-glm4-9b:https://huggingface.co/THUDM/LongWriter-glm4-9b
- Llama-3.1-8B:https://huggingface.co/THUDM/LongWriter-llama3.1-8b
总评价:比较有参考性的一篇文章,思路清晰,而且公开了数据、模型和代码
概述
研究背景
当前的大规模长上下文语言模型(LLMs)已经可以处理长达 100,000 tokens 的输入,但在 输出长度 上却存在明显的瓶颈,大多数模型难以生成超过 2,000 词的文本。许多现有 SFT(Supervised Fine-Tuning)数据集中的示例长度有限,这限制了模型的生成能力。
研究目标
本文的目标是:
- 分析 长上下文 LLMs 生成长度受限的原因。
- 提出 AgentWrite 方法,以 任务拆解 方式让 LLM 生成超长文本(20,000 词以上)。
- 构建 LongWriter-6k 数据集,提供 6,000 份 超长 SFT 数据(2,000 - 32,000 词)。
- 训练 长文本生成能力增强的 LLM,并通过 LongBench-Write 评估基准进行测评。
创新点
- 发现关键限制:输出长度受 SFT 数据长度约束,而非预训练阶段的上下文窗口长度。
- 提出 AgentWrite:基于代理(agent-based)的长文本生成流程,采用计划-写作策略。
- 构建 LongWriter-6k:首次大规模构建 10,000+ 词级别的 SFT 数据集,使 LLM 生成长文本成为可能。
- 提出 LongBench-Write 评测基准:针对超长文本生成能力,系统性评估 LLM 的长文本生成质量。
相关工作
主要理论
- 研究表明 LLMs 的上下文窗口越长,理解能力越强(Xiong et al., 2024)。
- 然而,尽管 LLMs 可以处理长输入,但它们的 输出能力受限于 SFT 训练数据的长度,通常无法超过 2,000 词。
关键技术
- Supervised Fine-Tuning(SFT):模型在微调过程中,输出长度受训练数据集的长度影响。
- Direct Preference Optimization(DPO):用于对 LLMs 进行对齐,使其遵循长文本生成需求。
- Divide-and-Conquer(任