监督微调(SFT)
使用人工标注的对话数据集(如1M条"用户-助手"对话)继续训练模型。
标注员遵循指导原则编写理想回答,使模型学习助手的回应风格。
示例对话格式:
[系统] 你是一个有帮助的AI助手…
[用户] 巴黎必看的前五大地标?
[助手] 埃菲尔铁塔、卢浮宫…
强化学习(RL)
验证性领域(数学/代码):通过生成多个解决方案,选择最优路径进行训练(如DeepSeek-R1模型)。
非验证性领域(创意写作):使用人类反馈强化学习(RLHF),训练奖励模型模拟人类偏好。
结果:模型发展出类人的思考链(如"让我再检查一遍计算…"),显著提升复杂问题解决能力。
关键认知特性
幻觉问题
成因:模型基于统计模式生成文本,而非真实知识库。
缓解方案:自我验证机制(如Llama3的事实性检查)、工具调用(网络搜索/代码执行)。
思维过程
推理模型(如GPT-4o)通过强化学习发展出类人思考链:
“设每个苹果价格为x,则3x + 22 = 13 → x=3。让我用另一种方法验证…”*
计算局限
Token窗口限制:需分布式思考(如分步计算而非单步求解)。
拼写障碍:因token化处理,直接字符操作较困难(需借助代码解释器)。
实践建议
工具调用:对数学/计数任务使用代码解释器,对事实查询启用网络搜索。
提示工程:复杂问题明确要求分步思考(“请逐步分析”)。
模型选择:
通用任务:GPT-4/Claude
复杂推理:DeepSeek-R1/GPT-4o
本地部署:Llama3/Mistral
技术前沿
多模态:原生支持文本/图像/音频的统一token化处理。
智能体系统:长时程任务规划与自我修正能力。
在线学习:突破当前静态参数限制,实现持续知识更新。