面试新收获-大模型学习

大模型原理

Transformer 架构与自注意力机制

Transformer 是当前大多数大模型采用的核心架构，由编码器-解码器组成，摒弃了传统 RNN 的顺序处理方式。Transformer 中关键在于多头自注意力机制（Multi-Head Self-Attention）：对于序列中的每个词（Token），模型通过计算与其他词的相关性（注意力权重）来动态聚合信息，从而能够在一次计算中关注输入序列的不同位置。多头注意力通过并行多个注意力“头”来捕获不同特征子空间的关联，大幅提升了模型对长距离依赖的处理能力和并行计算效率。相比 RNN 循环网络只能顺序处理，Transformer 的自注意力机制使其能一次性处理整个序列，从而利用 GPU 并行加速训练，并取得更好的全局语义建模效果。

预训练-微调范式

大模型通常采用“预训练 + 微调”的范式。首先在海量通用文本数据上进行无监督预训练，学习通用语言表示能力；然后针对具体任务进行微调，让模型适应特定应用场景。预训练使用的目标通常是语言模型任务（如下一词预测或填空），让模型掌握语法、语义常识。而微调阶段则在较小的标注数据上训练，可以是分类、问答等任务的监督信号，使模型的输出更贴近任务需求。通过预训练获取通用知识，再微调专业能力，可以极大提高数据利用效率，避免每个任务都从零训练一个模型。这一范式已被证明在NLP各任务上效果显著，也是 GPT 系列、BERT 等模型成功的基础。现代 LLM 如 GPT-3 预训练参数上千亿（如1750亿），而微调只需针对任务的较少数据，调节少量梯度，从而实现**“一次训练，多次适用”**的高效开发模式。

指令微调（Instruction Tuning）

指令微调是一种特殊的监督微调技术，旨在让大语言模型更好地“听懂”人类指令。具体做法是收集一系列指令-响应示例（通常由人工编写或模型生成后人工筛选），然后在预训练模型上继续以这些数据进行监督训练。经过指令微调，模型能够更遵循用户意图，给出更符合指令要求的回答。例如，OpenAI 的 InstructGPT 就是对 GPT-3 进行指令微调的产物，使之相比原始 GPT-3 更善于遵循人类给出的任务说明。类似地，Meta 发布的 LLaMA-2-chat 也是在基础模型上指令调优而成。指令微调通常被视为对齐（Alignment）过程的第一步，可极大提升模型在人机交互中的实用性——模型不再仅完成句子续写，而是能够听懂诸如“请总结上述文本”等明确指示并执行。

人类反馈强化学习（RLHF）

RLHF（Reinforcement Learning from Human Feedback，人类反馈强化学习）是进一步提升模型对人类偏好契合度的策略。其典型流程包括三步：

监督微调（SFT）：先用人工示范的高质量回答对预训练模型进行一次微调，获得初步具备指令遵循能力的模型（如 InstructGPT 的初始模型）。
训练奖励模型（Reward Model）：由人工对模型不同输出进行偏好比较，收集大量偏好数据，然后训练一个奖励模型来预测人类偏好评分。奖励模型以模型输出为输入，输出一个分数来衡量该回答有多符合人类期望。
策略强化优化：将步骤2得到的奖励模型作为“环境反馈”，使用强化学习算法（通常采用 PPO，Proximal Policy Optimization）来微调模型参数。策略梯度根据奖励模型给出的“奖励”信号调整语言模型，使其朝着人类偏好更高的方向优化。为了防止生成分布骤变，PPO 会限制每次更新的幅度，保证生成质量稳定。

通过RLHF，模型可以学会在遵循指令的同时，产出更让用户满意的回答。OpenAI 的 ChatGPT（GPT-3.5 系列）以及 GPT-4 就应用了RLHF来训练。值得注意的是，RLHF 的过程复杂、成本高昂，需要大量人工反馈数据和迭代训练。但其效果显著：可以纠正模型不良倾向，提升回答的有用性和安全性，使模型“更贴近人意”。

大模型开发与应用

模型微调方法：全量微调 vs LoRA/QLoRA

全量微调（Full Finetuning）需要在下游任务上调整模型的所有参数，但对于数十亿参数的模型来说训练开销巨大且容易过拟合。为提高微调效率，业界提出了参数高效微调方法，其中最常用的是 LoRA（Low-Rank Adaptation）。LoRA 的做法是冻结预训练模型的大部分权重，仅在每层加入小规模的低秩矩阵作为可训练参数。训练时只更新这些低秩适配矩阵，从而以极少的参数调节实现对模型的调优。据实验，使用 LoRA 对 GPT-3 进行微调时，需训练的参数量可从1750亿降低到约1800万，大幅降低约 2/3 的显存占用。LoRA 微调后的模型在特定任务上的表现可媲美全量微调。

QLoRA 是 LoRA 的改进变种，全称为量化 LoRA（Quantized LoRA）。它将基础模型权重先量化到更低精度（如 4-bit）以减少内存占用，然后在此基础上施加 LoRA 微调。通过低精度存储+高精度计算，QLoRA 进一步降低了微调资源需求。例如，有研究使用 QLoRA 在单张 GPU 上成功微调了 65B 参数的模型，但性能几乎没有损失。总的来说，LoRA/QLoRA 等高效微调方法让普通团队也能在消费级 GPU 上微调大模型，大大降低了应用门槛。

推理加速（ONNX、TensorRT 等）

大模型落地应用时，推理速度和延迟往往是关键挑战。针对推理阶段的优化，常用手段包括：

模型格式优化：将模型转换为优化的计算图格式，如 ONNX (Open Neural Network Exchange)。通过 ONNX，可以利用高效的推理引擎（例如 onnxruntime）在不同硬件上加速执行。此外，NVIDIA 的 TensorRT 是针对 GPU 推理优化的库，可以对模型进行算子融合、内存优化和半精度运算，加速Transformer推理。将模型导出为 TensorRT 引擎后，在支持硬件上常获得数倍于原生 PyTorch 的推理速度提升。
算子级优化：利用高性能计算库或自定义内核，实现 Transformer 中矩阵乘、softmax 等核心算子的优化版本。例如 FlashAttention 优化了长序列注意力计算，大幅减少显存访问；又如采用 fused kernel 一次完成多步运算，减少中间内存读写。硬件方面，充分利用 GPU 的 Tensor Core 进行 FP16/BF16 运算，也能提升吞吐。
批处理和并行：将多个输入打包成批一起推理，以摊薄每次调用开销。同时，如果有多张 GPU，可按需进行数据并行或流水线并行处理不同请求。此外对于 sequence sampling 这类生成过程，采用并行解码策略也能一定程度提高效率。
高效推理服务：使用专门针对大模型优化的推理服务器。例如 Hugging Face 提供的 Text Generation Inference (TGI) 框架，它集成了高效批处理和缓存策略，可用于生产环境的高吞吐部署。又如 vLLM 等方案专门为加速大模型生成而设计（后文详述）。

综合运用以上手段，可将大模型的推理延迟和成本显著降低，使其更适合实际业务部署。

分布式推理与 INT8 量化

当模型体积超出单机显存时，就需要分布式推理技术。典型方案是 模型并行 或 ZeRO 分片：将模型权重拆分到多块 GPU 显存上，每块负责一部分计算。以 Microsoft 的 DeepSpeed 框架为例，其 ZeRO-Inference 技术能将模型各层权重在多卡间分块存储，并在推理时按需交换，从而支持百亿甚至千亿参数模型的部署。虽然分布式推理会带来一些通信开销，但通过流水线并行、异步预取等优化，可以让多 GPU 协同工作，达到近似单模型的性能。

另一方面，量化技术通过降低参数数值精度来缩减模型体积、加速运算。常用的是 INT8量化，即将权重从32位浮点缩减为8位整数存储。Intel、NVIDIA 等都提供了高效的 INT8 矩阵乘单元，使得量化后推理速度提升显著，且内存占用减少 3/4。为了尽量避免精度损失，业界采用“近似无损”的量化方案。例如 LLM.int8() 使用逐列量化并对离群值单独16位存储的方法，使模型几乎不损失性能。实践表明，对 Transformer 模型进行 INT8 量化后，其在语言理解任务上的困惑度(perplexity)几乎不变。此外还有更激进的 4-bit 量化，也通过优化策略将性能损失降到可接受范围。总之，量化是大模型落地的利器，使原本需要多卡部署的模型能够在单卡甚至CPU上运行，为边缘设备部署大模型提供了可能。

模型压缩与蒸馏

为了进一步减小模型尺寸、提升推理速度，可以对大模型进行模型压缩。常见压缩技术包括：

知识蒸馏：利用大模型作为教师，训练一个参数量更小的学生模型，让学生模型去模仿教师模型对样本的输出分布。通过蒸馏，小模型能吸收大模型的知识，在较低复杂度下达到接近的性能。例如，用一个175B参数的模型指导一个7B模型回答问题，可使小模型性能显著提升接近大模型水平。
网络剪枝：分析模型中哪些权重对最终预测影响不大，将其系数置零（权重剪枝）或者移除相应的神经元/通道（结构剪枝）。剪枝后可减少模型计算量和存储，但需要在剪枝后对模型进行一定程度微调来恢复性能。
矩阵因子分解：将模型中的大矩阵（如权重矩阵）近似分解为两个更小的矩阵相乘，以降低参数数量。这实际上和 LoRA 的思想类似，只不过 LoRA是在保留原权重基础上附加小矩阵，这里则是替换原权重为分解形式。
参数共享：让模型的不同层共享参数（如 ALBERT 模型的做法），或使用循环的块结构来减少独立参数数量。
轻量模型架构：选择更轻量的架构替代标准 Transformer，如采用更少的层、更小的隐藏维度，或引入高效注意力（sparse attention、线性注意力）来减少计算复杂度。

通过以上技术，可以在尽量保持模型精度的前提下，将模型压缩到原始大小的一小部分，从而大幅提高推理速度、降低内存占用。这对于在移动端、Web 前端等受限环境中部署大模型尤其重要。不过压缩往往会牺牲一定性能，需要权衡取舍并针对具体任务验证效果。

主流大模型对比

当前大模型百花齐放，既有开源社区的成果，也有各大厂的旗舰模型。下面对几款有代表性的模型进行对比：

模型名称	参数规模	上下文长度	特点	开源情况
GPT-4 (OpenAI)	未公开（估计数千亿）	8k tokens（32k 扩展版）	多模态能力（可处理图像等），推理和代码能力顶尖，使用RLHF对齐	❌ 非开源，需API调用
LLaMA 2(Meta)	7B/13B/70B	4k tokens	纯文本模型，开源可商用，性能较上一代提升显著	🔶 开源（附带许可）
LLaMA 3(Meta)	8B/70B；计划400B+	推测4k-8k（更长待公布）	新一代开放模型，训练数据量比L2大7倍，8B/70B已超L2表现；据传400B模型接近GPT-4水平	🔶 开源（2024发布，部分平台提供）
Mistral 7B	7B	4k tokens (支持扩展到16k+)	法国初创公司模型，小参数下性能优异，训练高效	✅ 开源（Apache 2.0）
Mixtral 8×7B	46.7B（8个专家，共7B×8）	32k tokens	Mistral 7B 的 MoE 稀疏专家版本，仅使用约12.9B参数/Token推理，推理速度比70B快6倍，性能超LLaMA2 70B并逼近GPT-3.5	✅ 开源（Apache 2.0）
Claude 3 (Anthropic)	未公开（估计数百亿）	200k tokens（可扩展至>100万）	注重安全性的对话模型，擅长长上下文处理，支持图像输入，有不同规模版本（Haiku/Sonnet/Opus）	❌ 非开源，需API调用
Gemini 1.5 (Google)	未公开（多专家架构）	128k tokens（实验达100万）	多模态下一代模型，采用全新 Mixture-of-Experts 架构，训练和推理更高效，长上下文能力强	❌ 非开源（云服务提供）

🔶 部分开源（需遵循发布许可，例如LLaMA 2需接受其社区许可证）。
✅ 完全开源（通常采用Apache 2.0等许可，无使用限制）。
❌ 非开源（权重不公开，只能通过API或平台使用）。

上述模型各有侧重。

OpenAI 的 GPT-4 目前在综合能力上领先，但作为闭源模型使用需付费API且无法自行定制。

Meta 的 LLaMA 系列走开源路线，LLaMA 2 提供了高性能且可商用的基础模型，已被广泛用于下游微调；最新的 LLaMA 3 据报道进一步提升了规模和性能，试图逼近GPT-4水平。

Mistral 7B 展示了小模型的大威力，在7B参数下利用更优的训练策略达到接近30B模型的效果。其改进版 Mixtral 8×7B 更是采用稀疏专家（MoE）架构，将模型容量扩展至近47B但推理开销仍似12.9B模型，性价比极高。

Anthropic 的 Claude 3 注重长文本处理和安全，对话风格稳健，提供了高达百万级的超长上下文窗口。

谷歌的 Gemini 1.5 则代表多模态和稀疏专家结合的新方向，在图像、文本等多模态理解以及推理效率上都有突破，是下一代通用大模型的雏形。

总体而言，如果追求最高性能和多模态能力，可考虑 GPT-4 或 Gemini 等；如果侧重可控性、成本和定制，开源的 LLaMA 系列、Mistral 系列是很好的选择；而 Claude 3 等提供了长上下文对话的新范式，适合需要超长文档分析的应用。根据具体应用场景和资源约束，选择合适的大模型可以事半功倍。

工具链与框架使用

大模型的开发和部署离不开完善的工具链。以下列出业界常用的库和框架：

Hugging Face Transformers：最流行的深度学习模型库，提供了上千种预训练模型的接口，涵盖Transformer加载、训练、推理的全流程。开发者可以通过 from transformers import AutoModel, AutoTokenizer 等简单命令获取如 GPT-2、BERT、LLaMA-2 等模型。它支持 PyTorch 和 TensorFlow，并集成了Tokenizers快速分词等工具，非常适合快速验证和Fine-tuning模型。在 Hugging Face Hub 上还能找到丰富的社区微调模型和数据集资源。
DeepSpeed：由微软推出的训练加速库，专注于大模型的分布式训练和内存优化。其 ZeRO 技术将优化器状态、梯度和模型参数切分到多GPU，极大降低单卡显存占用，曾用于训练高达数千亿参数的模型。对于推理，DeepSpeed-Inference 也提供了异步流水线和张量并行方案，加速大模型推理。总之，当需要训练/部署超大模型时，DeepSpeed 是重要利器。
vLLM：一种高性能的开源推理引擎，专为LLM服务优化。vLLM 的核心创新是 PagedAttention 方法，将注意力的KV缓存分页管理，类似操作系统的虚拟内存机制medium.com。这一机制显著减少了长上下文时的内存浪费，使多请求并发处理更加高效medium.com。实测显示，vLLM 在实际基准中吞吐量比直接使用 Transformers 提升14～24倍，即使对比经过优化的TGI服务器也快约3.5倍medium.com。因此，在需要同时处理大量生成请求的场景（如聊天机器人服务）中，vLLM 可在相同硬件下支撑数倍的并发用户，提高性价比。
Text Generation Inference (TGI)：Hugging Face 提供的开源推理服务框架，专门针对文本生成模型部署。TGI用C++后端实现了高效的批量调度和推理，支持FP16量化、并行计算等优化，可大幅提升Transformer模型在服务端的吞吐，满足生产级高并发需求。它还支持多模型托管和HTTP API接口，方便与现有系统集成。许多开源模型的Demo（包括LLaMA-2官方Demo）即基于TGI搭建。
OpenAI API：对于OpenAI提供的 GPT-3.5、GPT-4、DALLE 等模型，开发者可以使用其云端API。通过 RESTful 接口，后端服务器可以直接调用这些强大的模型生成内容，而无需自行部署模型。OpenAI API 提供流式输出、参数调控等功能，使用便捷。但需要注意请求费用和速率限制。在敏感数据场景下也需考虑将提示经过脱敏处理后再发送，以保护隐私。总体来说，当不方便自行训练或部署模型时，调用云服务API是快速集成大模型能力的方式。
LangChain：一个用于构建由LLM驱动的应用的编排框架。LangChain 提供了标准化接口来连接语言模型与外部工具/数据。开发者可以用 LangChain 将 LLM 同数据库、互联网搜索、计算引擎等组合，使模型具备调用工具的能力。例如，可以让模型自动检索知识库以回答专业问题，或分步执行规划任务。LangChain 还支持记忆机制和对话状态管理，非常适合构建多轮对话代理、自动化助手等。此外，LangChain 对各大模型（OpenAI, HF Transformers 等）都提供兼容封装，在实验不同模型和提示模板时极其方便。总之，当需要开发复杂的链式Prompt流程或让模型执行复杂操作时，LangChain 是首选框架。
LlamaIndex (GPT Index)：一个旨在将LLM与自有数据结合的数据框架。LlamaIndex 提供简洁的接口来将文档、数据库等构建为索引，以便后续让LLM检索和利用。典型用法是：先用 LlamaIndex 将企业内部文档解析成向量索引，然后通过一个检索增强的Prompt，让 LLM 在回答问题时先从索引中提取相关信息。这样模型就能利用最新的或私有的知识，而不局限于训练语料中固有的内容。LlamaIndex 支持多种向量数据库和数据源插件（超过300种集成）。对于构建知识库问答、企业搜索助手等应用，LlamaIndex 能极大简化开发工作，免去繁琐的手动切分文档、向量搜索流程。

以上工具链覆盖了模型层、服务层和应用层。在实际项目中，可以将它们组合使用：例如用 Hugging Face 提供预训练模型 + LoRA 方法微调，然后借助 DeepSpeed 将模型部署在多卡集群上，推理时使用 vLLM/TGI 提升吞吐，应用端通过 LangChain 编排模型与业务数据交互。这套组合拳能够加速大模型从开发到落地的全流程。

企业级落地趋势：RAG、私有部署与多租户架构

随着大模型技术成熟，企业界正积极将其引入各类业务场景。然而，与消费级应用不同，企业落地需要考虑数据私密、部署成本、多用户服务等特殊需求。以下是当前企业应用大模型的几大技术趋势：

1. 检索增强生成（RAG）系统优化

企业中很多应用需要模型结合企业内部知识库进行问答或分析。例如客服机器人要引用产品手册内容回答客户问题，法律检索要引用法规条文。这些场景适合采用RAG架构：将企业知识以向量数据库或全文检索形式存储，LLM每次根据用户问题检索相关内容，再基于这些内容生成回答。这样既避免模型“胡编”公司内部数据，又可动态更新知识库以确保时效性。当前重点在于优化RAG各环节以提升准确性和效率：

更好的检索：针对企业领域，使用领域定制的embedding和语义搜索提升相关性。例如面向医疗领域的问题，采用专门微调的向量模型来获取更准确的语义相似度。还可结合知识图谱或结构化数据库提高精确度。
检索-生成融合：采用检索-重排-阅读三段式架构。检索器先找若干候选文档片段，然后通过一个小的重排序模型按照与问题的匹配度重新排序databricks.com（可训练），最后LLM阅读排名靠前的片段作答。这样能过滤掉部分不相关材料，减少模型负担，提高答案质量。
减少上下文长度压力：传统RAG将检索结果简单拼接在Prompt中，长度过大时效果变差。为此有研究将检索到的信息通过工具调用方式提供给模型，而非生硬拼接。例如，通过OpenAI函数调用，先把资料传给模型一个tool函数，模型需要某段资料时才调用，这样模型不会被过多无关信息干扰。此外，一些压缩上下文的方法（摘要、知识三元组抽取等）也在应用，帮助模型更高效地利用检索结果。
结果引用与可解释：企业很看重输出结果的可溯源性。因此RAG系统通常会让模型给出回答同时附上引用来源（如文档名或链接）。像微软Bing Chat那样，在答案句子后加上来源编号arxiv.org。这要求模型在Prompt设计和后处理上进行引导。通过few-shot示例或特殊标记，引导模型将引用文档整合到回答中。这增强了回答的可信度，也方便人工审核。

2. 私有化部署的新方法

许多企业出于数据安全和合规要求，倾向于在本地或专有云部署大模型，而非调用公共API。这就需要解决模型落地成本和性能问题。最新的趋势有：

开源大模型定制：企业往往选择开源模型（如LLaMA 2、Mistral等）作为基础，在自己的数据上进行轻量微调或LoRA增量训练。这样模型权重完全可控，不存在数据外泄风险。例如，一家法律咨询公司用LLaMA 2微调了内部法律问答数据，得到一个懂本地法规的对话模型，内部部署服务律师们使用。
高效微调方案：为降低私有数据微调成本，诸如LoRA、QP-Tuning等参数高效微调方法被广泛采用。只需调优模型很小一部分参数，就能让模型掌握企业专属知识或风格。比如LoRA仅插入低秩权重，内存开销很小，这使得在一台普通GPU上也能微调数十亿参数模型。
数据不出本地：一些云厂商提供把模型“带到数据”而非“数据送上云”的方案。例如微软Azure的认知服务支持在本地私有环境运行OpenAI模型推理，保证输入输出不经微软服务器。OpenAI 也推出了ChatGPT Enterprise版，承诺不将客户数据用于训练模型，并提供专用隔离的推理实例。这样企业可以用上强大模型，又满足合规要求。
软硬件一体优化：NVIDIA、Intel等纷纷推出针对本地大模型推理的解决方案。比如NVIDIA的NeMo框架与TensorRT优化，可将模型压缩并充分利用GPU张量核心，实现本地最高效推理；Intel 则通过OneAPI和优化库让大模型在CPU上运行更快，方便部署在CPU服务器上。甚至有硬件创业公司推出“大模型推理加速卡”，企业将其插入现有服务器即可提升模型运行效率。这些降低了私有部署的硬件门槛。

总之，如今**“大模型私有化”**已成为热门服务方向，从完整开源解决方案到厂商定制方案应有尽有。企业可以根据自身需求选择：要绝对离线安全，可以用开源模型+自主部署；对模型能力要求极高，也可采购厂商私有云实例，总之灵活性显著提高。

3. 多租户推理架构： 企业经常需要让一个模型服务多个应用或客户，而这些用户的会话彼此隔离、并发进行。这就需要支持多租户（Multi-tenant）的推理架构，既高并发又无数据串扰。为此，开发高效的多会话调度和隔离技术非常关键。

如前文推理加速部分提到的，vLLM等引擎本身就是为多租户场景设计的：通过PagedAttention和连续批处理，使得单机就可以高效处理众多并发请求。这对企业内部服务多个部门、每部门都有各自的对话上下文，非常实用。在多租户场景下，要确保：

数据隔离：每个会话的历史和机密信息不会泄露到别的会话的上下文中。底层实现上KV缓存分页等机制天然提供了隔离。此外，服务端还需严格在软件上隔离不同API调用者的身份和上下文。
资源公平与限流：防止某一租户大量请求占满全部算力。可以在架构上对每个租户设定QPS上限或优先级调度。例如为付费更高的客户保证更低延迟。像Transformer Serving框架（HuggingFace TGI等）都提供多队列、多worker的设计，以支持多租户服务。
伸缩性：当租户增加，请求量猛涨时，架构可以水平扩展（加机器）或垂直扩展（上更强GPU）来应对。这需要无状态或轻状态的服务设计。许多企业将模型封装成容器，由Kubernetes等编排，以便根据负载自动扩缩容，实现弹性服务。

目前的解决方案包括：开源的text-generation-inference（TGI）服务器，可高效批量调度多个生成请求；微软的 ORTInference 加强版，能够在CPU上并行多个推理；以及云厂商的托管服务（如AWS Bedrock、Azure OpenAI）本身为多租户设计，开发者只需调用API即可。对于自行部署，vLLM是上佳选择，其论文在SOSP 2023中详细阐述了如何实现23倍吞吐提升同时降低P50延迟。通过这些技术，即使面对高并发访问，企业也能让模型保持稳定快速响应。

MCP

1. MCP是什么？

Model Context Protocol (MCP) 是由Anthropic开发的开放协议，用于标准化AI助手（如Claude）与外部数据源和工具之间的交互。它提供了一个统一的接口，让AI能够安全、高效地访问各种资源。MCP协议通过标准化模型之间的上下文交换，使得不同的模型可以理解彼此的意图、状态以及所需的信息，达到更高效的协同工作。

2. MCP的主要组件

[AI Assistant]host <-> [MCP Client] <-> [MCP Server] <-> [External Resources]

MCP Server: 提供数据或功能的服务端
MCP Client: AI助手和服务器之间的通信桥梁
MCP Host: 托管AI助手的环境（如Claude Desktop应用）

面试新收获-大模型学习

大模型原理

Transformer 架构与自注意力机制

预训练-微调范式

指令微调（Instruction Tuning）

人类反馈强化学习（RLHF）

大模型开发与应用

模型微调方法：全量微调 vs LoRA/QLoRA

推理加速（ONNX、TensorRT 等）

分布式推理与 INT8 量化

模型压缩与蒸馏

主流大模型对比

工具链与框架使用

最新热点技术

监督微调 (SFT) 与直接偏好优化 (DPO)

稀疏专家模型 (MoE)

自主 Agent 技术 (AutoGen、CrewAI 等)

企业级落地趋势：RAG、私有部署与多租户架构

1. 检索增强生成（RAG）系统优化

2. 私有化部署的新方法

MCP

1. MCP是什么？

2. MCP的主要组件

其他

balabalabala

相关资讯

热文排行

最新新闻

推荐新闻

热搜词