欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 文旅 > 八卦 > 【LLM训练】从零训练一个大模型有哪几个核心步骤?

【LLM训练】从零训练一个大模型有哪几个核心步骤?

2024/11/30 8:44:28 来源:https://blog.csdn.net/weixin_44025655/article/details/144004493  浏览:    关键词:【LLM训练】从零训练一个大模型有哪几个核心步骤?

【LLM训练】从零训练一个大模型有哪几个核心步骤?

⚠︎ 重要性:★★★


NLP Github 项目:

  • NLP 项目实践:fasterai/nlp-project-practice

    介绍:该仓库围绕着 NLP 任务模型的设计、训练、优化、部署和应用,分享大模型算法工程师的日常工作和实战经验

  • AI 藏经阁:https://gitee.com/fasterai/ai-e-book

    介绍:该仓库主要分享了数百本 AI 领域电子书

  • AI 算法面经:fasterai/nlp-interview-handbook#面经

    介绍:该仓库一网打尽互联网大厂NLP算法面经,算法求职必备神器

  • NLP 剑指Offer:https://gitee.com/fasterai/nlp-interview-handbook

    介绍:该仓库汇总了 NLP 算法工程师高频面题


从零开始训练LLM需要如下4个核心步骤:

LLM的构建主要包含四个阶段:

  • 预训练
  • 有监督微调
  • 奖励建模
  • 强化学习

这四个阶段都需要不同规模数据集合以及不同类型的算法,会产出不同类型的模型,同时所需要的资源也有非常大的差别。

OpenAI 使用的大规模语言模型构建流程:

第 0 步:预训练基础大模型

目的:基于海量数据以“文字接龙”的形式构建基础语言模型。

语言建模和去噪自编码的输入输出对比:

第 1 步:有监督微调(SFT)

目的:人类引导“文字接龙”的方向。利用少量高质量数据集合,包含用户输入的提示词(Prompt)和对应的理想输出结果。

第 2 步:训练奖励模型

目的:为GPT请一个好老师。基于人类反馈训练的奖励模型可以很好的人类的偏好。从理论上来说,可以通过强化学习使用人类标注的反馈数据直接对模型进行微调。构建奖励模型(Reward Model),模拟人类的评估过程可以极大降低人类标注数据的时间和成本。奖励模型决定了智能体如何从与环境的交互中学习并优化策略,以实现预定的任务目标。

第 3 步:根据奖励模型进行强化学习

目的:AI 指导 AI,优化预训练模型。

使用奖励模型强化训练基础模型:


MLP 大模型高频面题汇总

NLP基础篇
BERT 模型面
LLMs 微调面

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com