欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 科技 > 名人名企 > 大语言模型学习及复习笔记(1)语言模型的发展历程

大语言模型学习及复习笔记(1)语言模型的发展历程

2025/3/17 14:58:43 来源:https://blog.csdn.net/weixin_65461886/article/details/146220259  浏览:    关键词:大语言模型学习及复习笔记(1)语言模型的发展历程

1.大模型进入人们视野

ChatGPT 于2022年11月底上线

模型名称

发布时间

核心突破

GPT-3

2020年6月

首款千亿参数模型,少样本学习

GPT-3.5-Turbo

2022年11月

对话能力优化,用户级应用落地

GPT-4

2023年3月

多模态、强逻辑推理

GPT-4o / GPT-4 Omni

2024年5月

全能输入输出,实时联网

o1-preview2024年9月

2.什么是大语言模型

语言模型的核心功能是通过概率建模预测自然语言文本的生成规律。传统语言模型(如N-gram模型)主要基于统计方法,通过局部上下文预测词序列的分布。然而,大语言模型(Large Language Model, LLM) 的出现标志着从单纯的语言建模向复杂任务求解的跃迁,其本质是通过海量数据与深度学习技术构建的通用智能系统。

2.1 传统语言模型的局限性

  1. 知识依赖性强:需依赖外部知识库(如知识图谱)补充背景信息,难以自主理解隐含语义。
  1. 泛化能力不足:需针对特定任务微调模型,适配成本高且跨领域迁移效果差。
  1. 推理能力受限:处理复杂逻辑(如多步推理、因果分析)时表现较弱,需调整模型结构或引入额外训练策略。

2.2 大语言模型的技术突破

大语言模型通过以下创新解决了传统模型的瓶颈:

  1. 规模跃升:参数规模达百亿至万亿级,训练数据覆盖多领域文本,可捕捉深层语言规律与常识。

  1. 统一架构:基于Transformer的自注意力机制,支持长距离依赖建模与上下文感知,无需任务特定结构调整。

  1. 预训练范式:通过海量无标注文本的自监督学习(如掩码语言建模),获得通用语义表示能力,显著降低下游任务适配成本。

  1. 涌现能力:在零样本/少样本场景下展现复杂推理、知识联想等能力,如代码生成、多轮对话。

2.3 传统模型的本质差异

维度传统语言模型大语言模型
参数规模百万至千万级百亿至万亿级
训练数据有限领域标注数据跨领域无标注文本(如网页、书籍)
任务适配需针对性微调通过提示工程直接调用通用能力
推理机制局部上下文依赖全局语义建模与逻辑链生成

应用与挑战

大语言模型已广泛应用于机器翻译、文本生成、智能问答等领域,但其仍面临幻觉问题(生成不准确内容)、算力需求高、伦理风险等挑战。未来,结合外部知识库与多模态数据可能成为进一步突破的方向。

3.大语言模型的定义和相关技术

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com