Agent系列：解密智能体的核心原理

1.Agent的概念

1956年的达茅斯会议诞生了人工智能（AI）这个独立学科，此次会议的主要议题就是：机器如何模仿人类的学习和其他智能行为。

这也就标志着，人工智能这个新兴领域的正式诞生！

南京大学周志华老师的西瓜书里面也是提过，在人工智能研究早期（20世纪60年代），其研究主要集中在符号主义和规则系统上，这时候还没有那么玄学，但是AI的效果一般都很差；

对Agent的理解：

(42 封私信 / 80 条消息) agent到底是个什么鬼？ - 知乎

我觉得Agent是属于LLM应用层的东西，旨在大模型技术驱动下，让人们以自然语言为交互方式高自动化地执行和处理专业或繁复的工作任务，从而极大程度释放人员精力；（其实就相当于一个人吧，LLM就是大脑，人类通过自己的一些感知端插件，比如触觉视觉等，收集外界信息，进入中央大脑进行解析处理后决策，然后指挥自己身体执行决策）；

其实怎么说呢，这些聊天机器人某种意义上也算是一种Agent，只不过功能比较单一吧，单纯就是对话，现在的Agent可不一样了，基于大模型的推理能力，嵌入一堆的感知器和执行器喔，你可以理解为就是一个人了~

终极目标-AGI（通用人工智能）

基于LLM的Agent是有很多可造之处的，特别是CoT思维链的提出，简直类人了！

2.Agent等级划分和分类

2.1Agent等级划分

chatGPT就是单纯的聊天机器人啦level1看到什么回答什么，根据自己训练的语料回答

DeepSeek其实就是像推理者了，有深度思考level2，看到问题之后会理性的思考之后回答

Manus就是有点类似level3的高级智能体了，可以自主调用许多工具执行复杂任务

目前我们还处在L2-L3之间吧

2.2Agent分类

2.2.1按数量分

单Agent，比较简单的任务，只需要一个具有特定功能的Agent即可完成任务

多Agent，对于一些复杂的任务，需要多个不同特定功能的Agent相互协作才能完成任务

2.2.2按属性分

自主性代理，联网搜索咯，感觉现在很多智能助手都有啦

生成式代理

2.2.3按自主程度分

现在的Agent还是像Copilot的模式，还是需要人类来参与的吧

2.2.3按行业应用分（电商/医疗/教育）

2.2.4Anthropic内部分类

他们的理解是，Agent是一种代理系统，包含LLM，可以使LLM动态的指导自己的流程和工具，并控制如何完成任务

工作流：Coze里面就是借鉴了这一点啦

工作流的特点是，可靠性很高，确定性很强，因为执行的每一步都是人类自己设定的，适合那种需要可靠性比较强的领域（法律/医疗/制造），缺点就是Agent的自主性不强咯

路由：用户输入问题进入路由节点后，根据用户问题进行选择不同的执行路径

智能体：LLM在循环中根据环境反馈来使用不同的工具

而智能体的优点就是，自主性较高，但是可靠性比较低，全部交给Agent全权代理了，比较适合不太需要可靠性的领域，比如艺术创作之类的

两个智能体的参考实例：

Claude SWE-Bench Performance 公司 |Anthropic \ Anthropic

2.3AI Agent的现实意义

很多产品由之前的GUI图形界面交互，慢慢的变成了GUI和LUI（自然语音交互）的混合形态

3.AI Agent的核心组件

感知模块+大脑模块+行动模块

3.1感知模块

目前做的比较好的还是文本输入，其他的话，视觉听觉触觉嗅觉这种，说实话还是需要跟一些硬件搭配起来使用，目前还是一个研究的趋势吧（具身智能/多模态）

3.2大脑模块（重中之重，一般就是大模型）

分为知识/记忆/规划

3.2.1知识：内置知识+外置知识

内置知识：base model训练阶段吞的语料（常识知识/专业知识/语言知识）

外置知识：外置知识库，比内置知识更好的是可以进行动态更新和调整

我可以比较懂的是向量数据库吧，text embedding;

3.2.2记忆：人类记忆/Agent记忆

人类记忆就是生成神经突触的过程咯，新的神经元生成就代表记住了一些东西咯；

这里还涉及到一点长期记忆和短期记忆的玩意，一般我们接收的信息就是存在海马体内，只由那种对海马体来说非常必要的信息（比如影响生存，自己感兴趣之类的）才会被判定为长期记忆，当然不断的重复也是可以骗过海马体的，所以呢，重复是最好的记忆，更好的记忆还得是结合自己的认知基础和日常生活吧~，好好和海马体哥哥相处啦