LLM | 论文精读 | 基于大型语言模型的自主代理综述

论文标题：A Survey on Large Language Model based Autonomous Agents

作者：Lei Wang, Chen Ma, Xueyang Feng, 等

期刊：Frontiers of Computer Science, 2024

DOI：10.1007/s11704-024-40231-1

一、引言

自主代理（Autonomous Agents）长期以来一直是人工智能领域的研究热点。传统的自主代理通常在隔离的环境中进行训练，知识和经验有限，因此很难达到类似人类的智能水平。近年来，随着大型语言模型（LLM）的发展，研究人员尝试利用这些模型作为自主代理的核心控制器，从而提升代理的决策能力。本文对基于LLM的自主代理进行了全面的综述，涵盖了其构建、应用和评估方法，并探讨了这一领域的挑战与未来方向。

二、LLM自主代理的构建

1. 代理的架构设计

LLM自主代理的构建主要关注两个问题：如何设计代理的架构以更好地利用LLM，以及如何赋予代理执行特定任务的能力。本文提出了一个统一的框架，将代理架构分为四个模块：

画像模块（Profiling Module）：用于确定代理的角色，例如代码编写者、老师等。代理的角色信息通常会写入提示词中，以影响LLM的行为。画像模块可以通过三种方式构建：
1. 手工设定：手动为代理指定角色特征，例如“你是一个外向的人”或“你是一名经验丰富的教师”。这种方法灵活但较为耗时。
2. LLM生成：利用LLM根据预定义的规则自动生成角色画像，通常使用少量样本作为示例，生成具有不同特征的代理。
3. 数据集对齐：从真实数据集中获取代理的角色信息，使得代理的行为更符合真实世界的情况。

记忆模块（Memory Module）：模拟人类的短期和长期记忆，帮助代理在动态环境中积累经验并进行有效决策。记忆模块的设计包括以下几个方面：
1. 记忆结构：
  - 统一记忆：仅模拟短期记忆，直接将上下文信息写入提示词中，适用于简单任务。
  - 混合记忆：结合短期记忆和长期记忆，短期记忆用于存储当前上下文信息，长期记忆用于积累重要的经验和知识。混合记忆使代理能够在复杂环境中进行长程推理和经验积累。
2. 记忆格式：记忆可以以自然语言、嵌入向量或数据库的形式存储。
  - 自然语言：灵活且易于理解，适合描述复杂的记忆内容。
  - 嵌入向量：提高检索效率，适用于快速查询。
  - 数据库：使用结构化数据存储记忆，方便高效地操作记忆内容。
3. 记忆操作：包括记忆的读取、写入和反思。
  - 记忆读取：根据任务需求，从记忆中提取相关信息，通常基于时间、相关性和重要性进行选择。
  - 记忆写入：将新信息存储到记忆中，需要处理重复信息和内存溢出问题。
  - 记忆反思：代理可以对过去的行为进行总结和反思，从中提取高层次的见解，以改进未来的行动。
规划模块（Planning Module）：允许代理将复杂任务分解为更简单的子任务，使其行为更加合理和可靠。规划模块分为两种类型：
1. 无反馈的规划：代理在规划过程中不接受外部反馈，适用于简单任务。
  - 单路径推理：按照预定步骤逐步完成任务，例如“链式思维”（CoT）。
  - 多路径推理：为每个步骤生成多个可能的后续步骤，例如“思维树”（ToT）。
2. 有反馈的规划：代理在执行过程中根据反馈调整规划，适用于复杂任务。反馈可以来自环境、人类或模型自身。
  - 环境反馈：从外部环境中获取信息，例如游戏中的任务完成情况。
  - 人类反馈：通过与人类交互获取反馈，以更好地对齐人类价值观。
  - 模型反馈：代理自身生成的反馈，用于改进计划质量。

行动模块（Action Module）：将代理的决策转化为具体行动，并直接与环境进行交互。行动模块包括以下几个方面：
1. 行动目标：代理可以执行不同目标的行动，例如完成特定任务、与其他代理交流或探索环境。
2. 行动生成：代理可以基于记忆回忆生成行动，或者基于预先生成的计划执行行动。
3. 行动空间：代理可以调用外部工具（例如API、数据库等）或依赖LLM的内在知识来完成行动。
4. 行动影响：行动会对环境或代理自身产生影响，例如改变环境状态、更新代理的内部记忆或触发新的行动。