从0开始构建LLM应用程序，超详细分步指南！

大型语言模型（LLM）正迅速成为现代人工智能的基石。然而，目前尚未有既定的最佳实践，所以研究者们没有明确的路线图可遵循，经常陷入困境需要重新开始。

在过去两年里，我帮助多个组织利用LLM构建创新应用。通过这段经历，我开发出了一种久经考验的方法来创建创新解决方案（受LLM.org.il社区的见解影响而形成），我将在本文中分享这个方法。

本指南为在复杂的LLM原生开发环境中导航提供了清晰的路线图。您将了解如何从构思转到实验、评估和产品化，释放您创造开创性应用的潜力。

为什么标准化流程至关重要？

LLM领域非常动态，有时我们几乎每天都会听到新的突破性创新。这确实令人兴奋，但也非常混乱——你可能会在这个过程中迷失方向，不知道应该做什么，或者如何将你的新想法付诸实践。

简而言之，如果你是一名AI从业者，希望有效地构建基于LLM的应用，那么这篇文章正是你所需要的。

实施标准化流程有助于启动新项目，并带来以下几个关键好处：

标准化流程

标准化流程有助于协调团队成员，尤其是在这种混乱的情况下，能并确保新成员入职流程顺利进行。

定义明确的里程碑

一种跟踪、衡量工作并确保您走在正确道路上的简单方法

确定决策点

LLM-原生开发充满了未知数和“实验”[见下文]。明确的决策点可以轻松降低风险，并始终保持精益开发工作。

针对所有自学遇到困难的同学们，我帮大家系统梳理大模型学习脉络，将这份 LLM大模型资料 分享出来：包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴，可以 扫描下方二维码领取🆓↓↓↓

👉[CSDN大礼包🎁：全网最全《LLM大模型入门+进阶学习资源包》免费分享（安全链接，放心点击）]()👈

LLM工程师的基本技能

与软件研发中的任何其他既定角色不同，LLM原生开发绝对需要一个新角色：LLM工程师或人工智能工程师。

LLM工程师是一种独特的混合生物，涉及来自不同（既定）角色的技能：

软件工程技能

与大多数 SWE 一样，大部分工作涉及将乐高积木拼凑在一起并将所有东西粘合在一起。

深入的业务/产品理解

由于模型的脆弱性，了解业务目标和程序至关重要，而不是坚持我们定义的架构。对手动流程进行建模的能力是工程师的一项黄金技能LLM。

在撰写本文时，LLM工程仍然是全新的，招聘可能非常具有挑战性。寻找具有后端/数据工程或数据科学背景的候选人可能是一个好主意。

软件工程师可能会期望更平稳的过渡，因为实验过程更像是“工程”而不是“科学”（与传统的数据科学工作相比）。话虽如此，我也看到许多数据科学家也在做这种转变。只要你对必须接受新的软技能这一事实感到满意，你就走在正确的道路上！

LLM原生开发的关键要素

与经典的后端应用程序（如 CRUD）不同，这里没有分步方法。与“AI”中的其他一切一样，LLM原生应用程序需要研究和实验的思维方式。

将工作分成更小的实验，尝试其中的一些，并选择最有前途的实验。

研究思维的重要性怎么强调都不为过。这意味着你可能会花时间去探索一个研究载体，发现它“不可能”、“不够好”或“不值得”。这完全没关系——这意味着你走在正确的轨道上。

试验LLMs是构建LLM原生应用程序的唯一方法

实验过程的核心

有时，你的“实验”会失败，然后你稍微调整一下你的工作，而另一个实验的成功率要高得多。

正因为如此，在设计我们的终局解决方案之前，我们必须从简单开始，对冲风险。

定义“预算”或时间范围。让我们看看我们在 X 周内可以做什么，然后决定如何或是否继续。通常，2-4 周的时间来了解基本的 PoC 就足够了。如果它看起来很有希望，请继续投入资源来改进它。
实验 - 无论您在实验阶段选择自下而上还是自上而下的方法，您的目标都是最大限度地提高结果继承率。在第一次实验迭代结束时，你应该有一些 PoC（利益相关者可以使用）和你实现的基线。
回顾性 — 在我们的研究阶段结束时，我们可以了解构建此类应用程序的可行性、局限性和成本。这有助于我们决定是否将其生产化以及如何设计最终产品及其用户体验。
产品化 — 通过遵循标准的 SWE 最佳实践并实施反馈和数据收集机制，开发项目的生产就绪版本，并将其与解决方案的其余部分集成。

为了很好地实施面向实验的过程，我们必须在接近和构建这些实验时做出明智的决定：

从精益开始：自下而上的方法

虽然许多早期采用者很快就跳入了具有成熟 Langchain 或类似功能的“最先进的”多链代理系统，但我发现“自下而上的方法”通常会产生更好的结果。

从精益开始，非常精益，拥抱“一个提示来统治所有人”的理念。尽管这种策略可能看起来很不寻常，并且一开始可能会产生不好的结果，但它为您的系统建立了一个基线。

从那里，不断迭代和优化您的提示，采用提示工程技术来优化结果。当您发现精益解决方案中的弱点时，通过添加分支来解决这些缺点来拆分流程。

在设计我LLM的工作流程图或LLM原生架构的每个“叶子”时，我遵循魔术三角³来确定何时何地剪断树枝、劈开树枝或加厚根部（通过使用快速的工程技术）并挤出更多的柠檬。

自下而上方法的插图

例如，要使用自下而上的方法实现“本地语言 SQL 查询”，我们将首先天真地将架构发送到并要求LLM它生成查询。

自下而上的方法示例

通常，这与“自上而下的方法”并不矛盾，而是作为其之前的另一步。这使我们能够快速获胜并吸引更多的项目投资。

前期大局：自上而下的策略

一级引用如下：

★

“我们知道LLM工作流程并不容易，为了实现我们的目标，我们最终可能会得到一些工作流程或LLM原生架构。”

自上而下的方法认识到了这一点，并从第一天开始设计LLM原生架构，并从一开始就实现其不同的步骤。

这样，您可以将工作流程架构作为一个整体进行测试，并挤压整个柠檬，而不是单独细化每片叶子。

自上而下的方法过程：设计架构一次，实施，测试和测量

例如，要使用自上而下的方法实现“本地语言 SQL 查询”，我们将在开始编码之前就开始设计架构，然后跳转到完整实现：

自上而下方法的一个例子

找到适当的平衡点

当你开始尝试时LLMs，你可能会从其中一个极端开始（过于复杂的自上而下或超级简单的一次性）。实际上，没有这样的赢家。

理想情况下，您将定义一个好的 SoP¹，并在对模型进行编码和试验之前对专家进行建模。在现实中，建模非常困难;有时，您可能无法接触到这样的专家。

我发现在第一次拍摄时就很难找到一个好的架构/SoP¹，所以在跳到大枪之前，值得轻轻尝试一下。然而，这并不意味着一切都必须太精简。如果你已经事先知道某些东西必须被分解成更小的碎片，那就去做吧。

在任何情况下，您都应该利用魔术三角³范式，并在设计解决方案时正确地对手动过程进行建模。

优化你的解决方案：榨干每一滴价值

在实验阶段，我们不断挤压并添加更多“复杂性层”：

提示工程技术 — 如少镜头、角色分配，甚至动态少镜头
将上下文窗口从简单的变量信息扩展到复杂的 RAG 流有助于改善结果。
试验不同的模型 — 不同的模型在不同的任务上表现不同。此外，大型LLMs模型通常不是很划算，值得尝试更多特定于任务的模型。
提示瘦身 — 我了解到，将 SOP¹（特别是提示和请求的输出）通过“瘦身”通常可以改善延迟。
通过减少提示大小和模型需要经历的步骤，我们可以减少模型需要生成的输入和输出。你会感到惊讶，但及时节食有时甚至可以提高质量！请注意，饮食也可能导致质量下降，因此在这样做之前进行健全性测试很重要。
将流程拆分为更小的步骤也非常有益，可以使优化 SOP¹ 的子流程变得更容易和可行。请注意，这可能会增加解决方案的复杂性或损害性能（例如，增加处理的令牌数量）。为了缓解这种情况，请以简洁的提示和较小的模型为目标。

根据经验，当系统提示符的显著变化对 SOP¹ 流程的这一部分产生更好的结果时，拆分通常是一个好主意。

实验剖析LLM

就我个人而言，我更喜欢从使用 Python、Pydantic 和 Jinja2 的简单 Jupyter Notebook 开始精益：

使用 Pydantic 从模型定义输出的架构。
使用 Jinja2 编写提示模板。
定义结构化输出格式（在 YAML² 中）。这将确保模型遵循“思考步骤”，并遵循我的SOP。
使用 Pydantic 验证确保此输出;如果需要，请重试。
稳定你的工作 - 使用 Python 文件和包将你的代码结构化为功能单元。

在更广泛的范围内，您可以使用不同的工具，例如 openai-streaming 来轻松利用流式处理（和工具），LiteLLM 在不同提供商之间拥有标准化LLM的 SDK，或者 vLLM 来提供开源LLMs服务。

通过健全性测试和评估确保质量

健全性测试评估项目的质量，并确保您不会降低您定义的某个成功率基线。

把你的解决方案/提示想象成一条短毯子——如果你把它拉得太长，它可能会突然无法涵盖它曾经涵盖的一些用例。

要做到这一点，请定义一组你已经成功涵盖的案例，并确保你保持这种状态（或者至少是值得的）。把它想象成一个表驱动的测试可能会有所帮助。

评估“生成式”解决方案（例如，编写文本）的成功比用于LLMs其他任务（例如分类、实体提取等）要复杂得多。对于这类任务，您可能希望使用更智能的模型（例如 GPT4、Claude Opus 或 LLAMA3–70B）来充当“法官”。

尝试使输出在“生成”输出之前包含“确定性部分”也可能是一个好主意，因为这些类型的输出更容易测试：

cities:  - New York  - Tel Aviv  
vibes:  - vibrant  - energetic  - youthful  
target_audience:  age_min: 18  age_max: 30  gender: both  attributes:  - adventurous  - outgoing  - culturally curious  
# ignore the above, only show the user the `text` attr.  
text: Both New York and Tel Aviv buzz with energy, offering endless activities, nightlife, and cultural experiences perfect for young, adventurous tourists.