1.Agent的概念
1956年的达茅斯会议诞生了人工智能(AI)这个独立学科,此次会议的主要议题就是:机器如何模仿人类的学习和其他智能行为。
这也就标志着,人工智能这个新兴领域的正式诞生!
南京大学周志华老师的西瓜书里面也是提过,在人工智能研究早期(20世纪60年代),其研究主要集中在符号主义和规则系统上,这时候还没有那么玄学,但是AI的效果一般都很差;
对Agent的理解:
(42 封私信 / 80 条消息) agent到底是个什么鬼? - 知乎
我觉得Agent是属于LLM应用层的东西,旨在大模型技术驱动下,让人们以自然语言为交互方式高自动化地执行和处理专业或繁复的工作任务,从而极大程度释放人员精力;(其实就相当于一个人吧,LLM就是大脑,人类通过自己的一些感知端插件,比如触觉视觉等,收集外界信息,进入中央大脑进行解析处理后决策,然后指挥自己身体执行决策);
其实怎么说呢,这些聊天机器人某种意义上也算是一种Agent,只不过功能比较单一吧,单纯就是对话,现在的Agent可不一样了,基于大模型的推理能力,嵌入一堆的感知器和执行器喔,你可以理解为就是一个人了~
终极目标-AGI(通用人工智能)
基于LLM的Agent是有很多可造之处的,特别是CoT思维链的提出,简直类人了!
2.Agent等级划分和分类
2.1Agent等级划分
chatGPT就是单纯的聊天机器人啦level1看到什么回答什么,根据自己训练的语料回答
DeepSeek其实就是像推理者了,有深度思考level2,看到问题之后会理性的思考之后回答
Manus就是有点类似level3的高级智能体了,可以自主调用许多工具执行复杂任务
目前我们还处在L2-L3之间吧
2.2Agent分类
2.2.1按数量分
单Agent,比较简单的任务,只需要一个具有特定功能的Agent即可完成任务
多Agent,对于一些复杂的任务,需要多个不同特定功能的Agent相互协作才能完成任务
2.2.2按属性分
自主性代理,联网搜索咯,感觉现在很多智能助手都有啦
生成式代理
2.2.3按自主程度分
现在的Agent还是像Copilot的模式,还是需要人类来参与的吧
2.2.3按行业应用分(电商/医疗/教育)
2.2.4Anthropic内部分类
他们的理解是,Agent是一种代理系统,包含LLM,可以使LLM动态的指导自己的流程和工具,并控制如何完成任务
工作流:Coze里面就是借鉴了这一点啦
工作流的特点是,可靠性很高,确定性很强,因为执行的每一步都是人类自己设定的,适合那种需要可靠性比较强的领域(法律/医疗/制造),缺点就是Agent的自主性不强咯
路由:用户输入问题进入路由节点后,根据用户问题进行选择不同的执行路径
智能体:LLM在循环中根据环境反馈来使用不同的工具
而智能体的优点就是,自主性较高,但是可靠性比较低,全部交给Agent全权代理了,比较适合不太需要可靠性的领域,比如艺术创作之类的
两个智能体的参考实例:
Claude SWE-Bench Performance 公司 |Anthropic \ Anthropic
2.3AI Agent的现实意义
很多产品由之前的GUI图形界面交互,慢慢的变成了GUI和LUI(自然语音交互)的混合形态
3.AI Agent的核心组件
感知模块+大脑模块+行动模块
3.1感知模块
目前做的比较好的还是文本输入,其他的话,视觉听觉触觉嗅觉这种,说实话还是需要跟一些硬件搭配起来使用,目前还是一个研究的趋势吧(具身智能/多模态)
3.2大脑模块(重中之重,一般就是大模型)
分为知识/记忆/规划
3.2.1知识:内置知识+外置知识
内置知识:base model训练阶段吞的语料(常识知识/专业知识/语言知识)
外置知识:外置知识库,比内置知识更好的是可以进行动态更新和调整
我可以比较懂的是向量数据库吧,text embedding;
3.2.2记忆:人类记忆/Agent记忆
人类记忆就是生成神经突触的过程咯,新的神经元生成就代表记住了一些东西咯;
这里还涉及到一点长期记忆和短期记忆的玩意,一般我们接收的信息就是存在海马体内,只由那种对海马体来说非常必要的信息(比如影响生存,自己感兴趣之类的)才会被判定为长期记忆,当然不断的重复也是可以骗过海马体的,所以呢,重复是最好的记忆,更好的记忆还得是结合自己的认知基础和日常生活吧~,好好和海马体哥哥相处啦
Agent记忆:
也有长期和短期记忆~,短期记忆其实就是我们的对话内容,如果不开启长期记忆功能的话,他就不会结合以往的对话来生成下面的回答
长期记忆的话,就是总结你们以往的对话,保存下来,在后面的交流中会去检索前面总结的信息吧,还有就是RAG了,外挂知识库,随时检索外界的相关信息融入大模型的上下文中进行回答
目前最好的实现长期记忆的做法,就是定期总结上下文对话内容,然后保存为知识库,在后续的对话交流中可以对这个知识库进行索引提取有关信息融入大模型再进行回答~
3.2.3规划
规划其实就是教Agent怎么思考?如何思考?教会他人类的思考框架吧~
思维链:Chain of Thought
让大模型将一个复杂问题分解为一步一步的子问题并依次进行求解,可以显著提升大模型的性能
思维树:Tree of Thoughts
相当于CoT的改进版,不再是简单的链式,而是拆解成子问题后生成不同的答案并进行选择;
案例:DeepSeek就是引入了CoT技术,让模型有输出思维链的能力,然后使用人类反馈强化学习和基于规则的推理奖励对模型进行强化学习的训练,就比较符合人类的期望啦
ReAct:不是简单的决策了,而是综合系统,核心是在动态和不确定的环境中,有效的决策需要持续的学习和适应,以及快速将推理转化为行动的能力,即形成有效的观察-思考-行动-再观察的循环~
他这里的意思就是,React不再是说完全的像CoT一样把所有的步骤都执行一遍而不观察,而是先观察再决定要不要行动,就跟人类一样,假如你有一个需求,操作手册里面写了5个步骤去实现这个需求,但是你在第二步就解决了,想了一下,没必要再继续下面的步骤,直接结束,类似在行动前先观察一下周围的环境思考思考咯~
Plan and Execute:
有点类似,不对,不太像,这个还是先计划再执行,先规划好再去执行没那么乱嘛
这个图还算比较清晰了,多了一个计划器嘛,让大模型不要局部在那瞎搞了,把视角放到整个任务里面进行规划,规划好了再去做~(感觉还是类似人类的一种认知框架和思维框架吧)
Reflexion:强化学习框架
有点帅了哈,加入了强化学习,有点像deepseek了,好吧其实就是它~,模拟我们人类自己再解决问题时,会去思考以前的解决经历并且反思当时的解决方案吧~
3.3行动模块
工具调用(大模型根据任务需求调用相应的工具来解决问题)
具身行动(智能系统+外部物理世界,一个真正的智能体,不可能只是单纯的预设数据处理或者是调用什么乱七八糟的工具,而是像人类一样,可以跟周围环境进行持续互动和反馈,根据周围的环境进行思考并执行)
案例:
3.4大佬对Agent系统的定义
差不多,感知/大脑(知识/记忆/规划)/行动~
4.Agent的设计和构建
4.1Reflection(反思)
AI会自我反思咯,自己给自己设定一点点提示词来检查反思自己的回答,不断迭代生成的结果
4.2Tool Use(工具调用)
调用一堆工具,大大提升大模型的能力,diy性很高
4.3Planning(规划)
不就是设定Agent的思维方式吗,教他如何思考?教他解决问题的思路?
4.4Multi-Agent(多智能体协作)
多种不同特定功能的智能体协作(level5)
5.Agent的构建方式
Dify可以本地部署,数据比较考虑隐私的话可以用它,不然就用Coze吧
FastGPT主打知识库吧
6.Agent的基本功---提示词
其实prompt就是一种引导Agent进行特定操作的指令
6.1四个视角对Prompt的理解:
6.2提示词的核心要求:
人机对齐,让大模型能理解你的话,你也能理解大模型的话;核心就是大模型需要知道人类提问的背景吧,prompt就是要做到这点,别只一句话就问,提供好相关的背景信息人家才能正确理解并提供准确高效的回复
通过你的引导,减少幻觉
6.3提示词基础技巧(感觉Coze里面的提示词框架就是按这些原则来的哈)
明确任务要求:
提供回答示例:
使用分隔符指示输入的不同部分
给模型时间思考(其实就是让模型用思维链的形式回答咯,一步一步的推理得到结果)
其实就是你自己要想清楚你要问什么,顺便也告诉大模型怎么去想
结构化表达:(Coze专业的提示词模板就是这样的啦,这样的效果最好)
7.Agent目前的挑战和机遇
总结一下,还是不够智能,还是需要人为的去干预,人为的去调试,然后长期记忆能力还是不够牛逼,过于依赖RAG技术吧,最后就是多模态能力咯,目前做的比较好还是文本,缺乏视觉触觉听觉等其他能对现实世界进行理解模拟反馈持续学历的能力吧~