欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 健康 > 养生 > 动手学LLM(ch1)

动手学LLM(ch1)

2025/3/10 6:05:28 来源:https://blog.csdn.net/m0_56569131/article/details/142548737  浏览:    关键词:动手学LLM(ch1)

前言

这一系列的笔记是根据《Build a Large Language Model (From Scratch)》这本书开始,接下来会整体记录整个学习笔记。在学习这个之前,建议先过一遍transformer的原理.......

GitHub地址:https://github.com/rasbt/LLMs-from-scratch?tab=readme-ov-file

第一章的内容,书上在这一小结巴拉巴拉说了很多,如果有些基础的里面很多都是废话,所以我这里总结一下即可...........

1.1 理解大型语言模型

LLM开创了自然语言处理(NLP)的新时代。传统方法在垃圾邮件分类和简单模式识别等分类任务中表现出色,这是由于这些任务可以用手工规则或更简单的模型来捕捉。然而,在需要复杂理解和生成能力的语言任务中,如解析详细说明、进行上下文分析或创建连贯且与上下文相适应的原始文本时,这些方法通常表现不佳。LLM在复杂语言任务中展现了卓越的理解和生成能力,能够处理细致的上下文分析和连贯的文本生成。它们基于深度学习和海量文本数据进行训练,通过transformer架构捕捉语言的微妙之处,显著提升了文本翻译、情感分析和问题解答等任务的性能。与以往为特定任务设计的模型不同,LLM具备更广泛的应用能力。

1.2 什么是LLM

大型语言模型(LLM)是基于深度神经网络的神经网络,旨在理解和生成类人文本。它们通过在海量文本数据上训练,掌握语言的上下文和结构,具有预测下一个单词的能力。LLM采用transformer架构,能够选择性关注输入的不同部分,从而处理语言的细微差别和复杂性。由于具备生成文本的能力,LLM也被视为生成式人工智能(GenAI)的一种形式。与传统机器学习不同,深度学习不需要人工提取特征,能够自动识别数据中的复杂模式,广泛应用于各种自然语言处理任务。

1.3 LLMs的应用

大型语言模型(LLM)因其解析和理解非结构化文本的能力,已广泛应用于多个领域,包括机器翻译、文本生成、情感分析和文本摘要。LLM还被用于内容创作,如撰写小说和计算机代码,并为复杂聊天机器人和虚拟助手提供动力,如OpenAI的ChatGPT和谷歌的Gemini。此外,LLM能够从医学和法律等专业领域的大量文本中进行知识检索,处理文档筛选和技术问题回答。随着对LLM应用的持续探索,它们有潜力重新定义我们与技术的互动方式。在本书中,将探讨LLM的工作原理,以及如何构建类似ChatGPT的文本生成助手。

可用于从医学或法律等专业领域的大量文本中进行有效的知识检索*:本句说明LLM不仅适用于通用语言处理,还能够处理专业领域的文本数据。知识检索是指在大量文本中查找和提取所需信息的过程,而这种其实为了更专业回答相关问题,会涉及RAG相关技术的使用。而这正是大模型的两个比较火热的应用研究方向之一,另外一个是Agent*相关技术。

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com