单位最近也接入了满血版DeepSeek用于业务系统,不过单一智能体的表现并不能够完全符合生产环境,所以对大语言模型下的多智能体协作机制进行研究,期望在测试中找到最合理的解决方案。
文章目录
- 摘要
- 第一章 绪论
- 1.1 研究背景及意义
- 1.2 国内外研究现状
- 1.2.1协作系统研究现状
- 1.2.2大语言模型研究现状
- 1.2.3协作式人工智能的研究现状
- 1.2.4多智能体系统的研究现状
- 第二章 多智能体系统应用
- 2.1实际应用
- 2.1.1 5G/6G 网络与工业 5.0
- 2.1.2问答与自然语言生成(QA/NLG)
- 2.1.3社会与文化领域
- 参考文献
摘要
随着大语言模型(LLMs)的不断发展,代理式人工智能(Agentic AI)在现实应用中取得了显著进展,推动了基于多个大语言模型的智能体系统的发展,使其具备感知、学习、推理和协同执行任务的能力。这些基于大语言模型的多智能体系统(MASs)能够通过智能体间的协作解决复杂问题,从而实现整体的决策行动,标志着人工智能从单一模型向以协作为核心的方法转变。
本文对多智能体系统的协作机制进行了系统性的综述,通过回顾现有方法,本研究讨论当前多智能体系统的协作模式,并为推动基于大语言模型的多智能体系统向更加智能、高效的方向发展,尤其是在复杂现实场景中的应用做出思考。
本文总结了当前研究的主要模式,分析了多智能体系统面临的开放性挑战,并进一步探讨了多智能体系统的发展方向,为未来研究奠定基础。
第一章 绪论
1.1 研究背景及意义
随着大语言模型(LLM)的持续发展,人工智能(AI)在复杂任务处理方面取得了重大突破,使其在创造性写作、推理和决策等方面展现出接近人类的能力。尽管单个LLM能够执行多种任务,它们仍然面临诸多局限,例如幻觉问题、自回归生成机制导致的推理深度受限,以及可扩展性不足等挑战。为克服这些问题,代理式人工智能(Agentic AI)提出了一种新的范式,即利用LLM作为核心推理单元或协调者,并结合外部工具和任务规划能力,使基于LLM的智能体能够自主行动、解决复杂问题,并与外部环境交互。
在此基础上,当前研究进一步探索了基于多个LLM的智能体协作模式,以实现更高层次的集体智能。这一方向与多智能体系统(Multi-Agent Systems, MAS)和协作人工智能(Collaborative AI)的研究目标一致,即通过智能体间的协调与知识共享,使其能够协同解决复杂任务。基于LLM的MAS不仅受技术进展驱动,同时也受到人类社会集体智能概念的启发,如“心智社会”(Society of Mind)和“心智理论”(Theory of Mind)。人类社会依靠团队合作和专业化分工以实现共享目标,而MAS试图模拟这一原则,使智能体能够协同工作,充分发挥各自的优势,以提高任务执行的效率与质量。
在多智能体系统中,智能体之间可以通过不同的协作方式进行信息共享与任务协调。MAS的核心优势在于其能够将任务分解并分配给多个智能体,使它们能够并行执行子任务,并通过协作优化整体解决方案。这一模式不仅提升了知识存储与共享能力,减少了单一智能体的信息负担,还增强了长期规划能力,使系统能够在连续的交互过程中不断优化决策。此外,MAS通过聚合多个智能体的知识和专业化角色,提高了泛化能力,使其在面对多样化问题时能够表现出更高的适应性。MAS还能够并行处理多个任务,提高交互效率,从而加速复杂任务的求解过程。总体而言,MAS的目标在于实现超越单个智能体能力上限的集体智能,使多个智能体的协作能力能够大于其个体能力之和。
在这一背景下,有效的MAS系统需要合理的协作机制,以确保智能体之间的高效交互。这些机制的核心在于推动人工智能从孤立的个体模型向强调协同互动的方法转变,使智能体能够相互连接、协商、决策、规划并共同执行任务,从而提升人工智能在多智能体环境中的适应性和能力。因此,深入理解MAS中的协作机制,对于解锁其全部潜力至关重要。此外,随着MAS在5G/6G网络、工业5.0、智能问答系统以及社会文化环境等领域的广泛应用,研究者需要进一步探索MAS的潜在挑战,例如智能体间的信任、安全性、知识整合及决策一致性等问题,以推动人工集体智能(Artificial Collective Intelligence, ACI)的发展,为未来人工智能系统的智能化和协同性奠定基础。
基于大语言模型(LLM)的多智能体协作系统在人工智能研究和应用中愈发重要,近年来已有很多研究展开讨论。然而这些研究往往未能充分探讨基于LLM的多智能体系统(MAS)中的协作机制,而协作机制对于实现智能体间的高效协作、推动智能体朝着同一目标协同工作至关重要。目前学术界的部分研究主要聚焦于单智能体系统,仅在表面层面提及多智能体协作,而未深入分析其核心机制。
现有研究提出了不同的LLM智能体框架,例如一些研究强调将LLM作为智能体的核心推理单元,并结合输入模态整合、提示优化、信息检索及工具调用等技术。然而这些研究对多智能体协作的讨论主要集中于智能体的行为和个性,缺乏对其协作机制的系统性分析。也有研究探讨了基于LLM的MAS在多个应用场景中的成功案例,并分析了其通信结构,如分层式、去中心化、集中式及共享消息池等模式。然而这些研究未涉及协作的关键特征,如协作类型、策略设计或协调机制。
此外,部分研究关注LLM智能体的协作策略。例如,有研究将协作策略归类为合并、集成和合作,并探讨了这些策略在LLM环境中的应用,拓展了传统融合技术的范畴。然而,该研究忽略了竞争与合作竞争等关键协作机制,未能全面覆盖MAS的不同协作模式。也有研究提出增强LLM能力的通用框架,并分析了 Auto-GPT 等工具的集成方式。然而,这些研究对协作机制的讨论仍停留在概念层面,缺乏具体的实现方案及系统性表征。此外,还有研究重点分析如何配置LLM以利用多样化的智能体能力和角色,如整合记忆管理和信息检索组件,并探讨了基于智能体角色和专业化的全局与局部任务规划。然而,其研究重心主要在于规划与协调架构,未充分分析智能体间协作的更广泛特征。同样,部分研究聚焦于基于LLM的MAS在智能体建模与仿真领域的应用,探讨了环境感知、人类对齐、行动生成及评估等方面的挑战。虽然这些研究在特定领域具有一定的指导意义,但是缺乏对MAS协作机制的宏观视角。另有研究综述了MAS在数字孪生及软件工程领域的应用,总体而言,仍未能系统性地分析MAS中的协作机制及其对整体智能体协作效率的影响。
综上所述,尽管现有研究为基于LLM的MAS提供了一定的理论和应用支持,但在系统性探讨智能体协作机制方面仍存在显著不足。鉴于协作机制对于MAS的有效性至关重要,本文旨在系统性地分析基于LLM的多智能体协作机制。具体而言,从以下关键维度表征LLM智能体间的协作模式:参与者(涉及的智能体)、协作类型(如合作、竞争或合作竞争)、协作结构(如点对点、集中式或分布式)、协作策略(如基于角色、基于规则或基于模型)以及协调层。本文特别关注促进有效协作的关键机制,识别MAS设计中的核心特征和发展趋势。通过系统综述现有方法指导未来基于LLM的MAS研究,推动其在复杂现实场景中的应用与发展。
1.2 国内外研究现状
1.2.1协作系统研究现状
理论上,协作学习可以追溯到社会文化学习理论(Vygotsky,1978)[1],该理论认为社会互动是学习的必要过程。它始于知识更渊博的人(如导师)与学习者之间的互动(心理层面的互动),这种互动导致学习者内部的认知变化(心理层面的变化)。协作学习或CL是指一种教与学的教育方法,涉及一组学习者共同努力解决一个问题、完成一项任务或创造一种产品。在合作学习的环境中,学习者在社交和情感上都会受到挑战,因为他们会倾听不同的观点,并被要求清晰地表达和捍卫自己的观点。这样学习者开始创建他们自己独特的概念框架,而不是仅仅依赖专家或文本的框架。
Dillenbourg 解释说协作学习的情况有许多变化[2],包括小组规模、小组组成、协作性质和交流媒体;这些协作学习的情况是这样安排的,即“人们之间预期会发生特定形式的互动,这将触发学习机制,但不能保证预期的互动将实际发生。换句话说,学习环境是如何构建的,支持协作学习的哪个方面是至关重要的;同样,有效学习的发生涉及多个因素。因此,研究人员一直在探索合作
的过程和学习成果。
除了合作学习的概念和情况的变化,一个相近的概念是合作学习(约翰逊和约翰逊,2009)[3]提出了协作学习和合作学习的区别:例如,协作学习侧重于在共同目标和任务上的协调努力,而合作学习强调学习者之间的相互依赖,通常以角色分工的形式(Davidson & Major,2014;迪伦伯格等人,1996年);[5]协作学习适合自学的成熟学者,而合作学习适合在教师指导下学习的年轻学生(Bruffee,1995)。
合作学习涉及更多的结构性指导或脚本,更多的是教师指导,而合作学习奖励学生的能动性和为共同目标而努力。无论如何,协作和合作学习的共同属性包括小组工作的共同任务或活动、共享任务或活动的小组互动、共同完成任务或活动的有益小组流程、学习任务、个人表现出的责任和义务,以及一起工作的个人之间的相互依赖。
除了与他人的互动,分布式认知理论(Hutchins,1995)认为[6],认知涉及与其他具有不同专业知识的人以及环境中为学习提供额外认知资源的工具的互动。外部工具。
基于计算机的资源,如互联网或学习管理系统。2014 年Stahl等人计算机支持的协作学习CSCL,在过去三十年中已经成为一个突出的研究领域。Stahl在2006年研究学生如何在与共享计算机资源交互的同时围绕计算机进行交互和学习。Scardamalia 和 Bereiter在2014探讨学生如何通过联网计算机进行通信和与在线资源进行交互来学习。在CSCL环境中,学生的适应能力和自我导向是至关重要的,因为他们不是从固定顺序的辅导课程中学习,而是通过网络计算机与他人一起学习,具有流动和动态的交互以及不断变化的角色和任务。在这种情况下,Scardamalia在2002学生参与他人和资源的能动性的研究受到重视。CSCL(例如,在线论坛)不仅支持学习者之间的交流,还支持学习者进行更有成效的互动和意义创造。例如,Scardamalia和 Bereiter在2014年探索使用在线论坛知识论坛来支持学生的协作知识建设,并使用各种功能,如生产性话语的框架来鼓励学习者之间的生产性互动。Lee 和 Tan在2017年涉及CSCL的研究探索了学生的学习成果。2006年Weinberger和 Fischer想法讨论或学习任务中的表现。Moore等人在2019年研究话语移动、学生分组方式。Hern andez-Sell es等人在2020年研究学生互动过程。
除了CSCL,在2000年代末,大规模开放在线课程(MOOCs)的出现迅速成为一场教育革命,有望提供包容性的优质教育,从而对教育产生影响。2015 年Sharrock表示 MOOCs的快速发展使其在全球许多大学得到了应用。
CSCL和MOOCs中学生互动和结果数据的可用性为利用人工智能支持协作学习提供了肥沃的土壤。2021年Lee的研究表明人工智能应用已被用于探索学生的想法和内容。2020年Jarvel等人研究学生的协作互动,以及学生的情绪。这篇综述集中于协作学习,人工智能的应用建立在数据的可用性和技术支持(如CSCL)的基础上,所以现有的社会模型同样具有参考性。
1.2.2大语言模型研究现状
大语言模型(LMs)是能够理解和生成人类语言的计算模型。语言模型具有变革性的能力,能够预测词序列的可能性或根据给定的输入生成新的文本。N-gram 模型是最常见的语言模型类型,它基于前文语境来估计单词的概率。然而,语言模型也面临着诸如罕见或未见过的单词问题、过拟合问题以及难以捕捉复杂的语言现象等挑战。研究人员一直在努力改进语言模型的架构和训练方法以应对这些挑战。
大型语言模型(LLMs)是具有巨大参数规模和卓越学习能力的先进语言模型。诸如 GPT-3、InstructGPT和 GPT-4等许多大型语言模型的核心模块是 Transformer 中的自注意力模块。
DeepSeek-R1-Lite[7]是深度求索于2024年11月20日发布的人工智能大型语言模型,是深度求索第一个推理模型。专门适用于数学、编码和逻辑等任务,性能对标OpenAI o1,DeepSeek-R1-Lite是Deepseek R1的预览版。DeepSeek称该模型用了强化学习训练,并为用户展现了 o1 没有公开的完整思考过程。而该模型关键特点就是便宜,与OpenAI o1的价格相差极大。Deepseek R1 Lite在回答问题前会花更多时间思考,因此准确度会增强。Deepseek的测试结果表明,在数学竞赛上的得分与测验所允许思考的长度紧密相关,而模型思维炼长度增加展现了更高的效率。
Deepseek-R1-Lite在数学、代码和复杂逻辑推理上,获得媲美 o1-preview 的推理效果。在美国数学邀请赛中DeepSeek 称,该模型在美国邀请数学考试和 MATH 等既定基准上的表现超过了 OpenAI o1 Preview的水平,在国际数学奥林匹克正确率达到83%,它还在Codeforces编程竞赛中优于89%的参赛者,但在GPQA Diamond,LiveCodeBench和自然语言解迷中较为逊色。
DeepSeek-R1的论文中没有公布其训练成本等细节。不过此前的论文中,DeepSeek透露其训练使用的是英伟达因为美国出口管制而针对中国市场特供的低配版GPU H800,训练成本为557.6万美元,远低于类似西方公司的闭源模型。外界预估R1的训练成本也不会比DeepSeek-V3高多少,或在600万美元上下。
表1-1 传统机器学习、深度学习和大语言模型的比较
对照 | 传统机器学习 | 深度学习 | 大语言模型 |
---|---|---|---|
训练集规模 | 大 | 大 | 非常大 |
特征工程 | 手动 | 自动 | 自动 |
模型的复杂性 | 受限 | 复杂 | 非常复杂 |
解释能力 | 良好 | 弱 | 较弱 |
性能 | 中等 | 高 | 较高 |
硬件要求 | 低 | 中 | 高 |
1.2.3协作式人工智能的研究现状
从历史来看,人类制造机器是为了获得机器的帮助。如果希望人们信任人工智能,就不仅要知道“什么是真实的”,还要理解“为什么是真实的”,也就是说,机器的推理基础和前提条件是什么。事实应当有来源,基本原理也应对人类用户保持透明。本文所探讨的协作智能(CI)是一种能够与人类合作、帮助人类实现目标的智能系统。在这种模式下,一些任务更适合由人来完成,而另一些则可以交由计算机处理。CI的目的并不是取代人类员工,而是与他们协同工作。
例如,移动机器人CoBot可以按照指令将物品运送到大楼的另一层,但它需要人为其按电梯并选择楼层。如果没有人帮助,CoBot会发出求助信号。本质上,人类与计算机各有所长,能够形成互补。例如,机器人吸尘器在清理地面上的微尘方面可能比人工更高效,但人类更擅长判断何时该启动它(如避免在水渍或较大碎片区域使用)。如果机器人吸尘器能够识别需要人类介入的情况(如清空集尘袋或移走挡路的宠物)并主动请求帮助,这将是一个协作智能的典型应用。虽然人机交互的界面开发是必要的,但CI更关注合理的任务分工和支持性协作。要实现高效的人机协作,CI需要能够模拟人类对世界的认知。这一研究方向属于认知科学,但在人工智能领域往往被忽视(除了常识推理和定性推理等少数例外)。例如,在心理学的经典实验中,人们通常认为“古巴与俄罗斯相似”,但却不会认为“俄罗斯与古巴相似”。然而,许多人工智能系统默认对象的相似性关系是对称的。至少CI应当意识到这种人类认知方式的特殊性,尤其是当它们与机器的认知存在差异的时候。
1.2.4多智能体系统的研究现状
多智能体系统(MAS)[8]是由多个相互作用的智能体组成的计算机化系统。这些智能体具有自主性,能够感知环境、与其他智能体交互,并通过协作解决复杂的任务。
MAS 的关键组成部分包括:
智能体:系统中的核心参与者,具有角色、能力、行为模式和知识模型。智能体的能力包括学习、规划、推理和决策制定,这些能力赋予了智能体和整个系统智能。
环境:智能体所处的外部世界,智能体可以感知并作用于环境。环境可以是模拟的或物理空间,如工厂、道路、电网等。
交互:智能体之间通过标准的智能体通信语言进行通信。智能体的交互包括合作、协调、协商等,具体取决于系统的需求。
组织:智能体可以按照层次结构进行控制,或基于涌现行为进行组织、MAS 的显著特征包括灵活性、可靠性、自组织和实时操作,使其成为解决复杂任务的有效解决方案。
通过将复杂任务分解为多个子任务,每个子任务由不同的智能体处理,MAS 能够以较低的成本和较高的可靠性完成任务。
第二章 多智能体系统应用
2.1实际应用
LLMs 在 5G/6G 网络和工业 5.0 中的应用显著提升了边缘网络的性能。例如,LLM-SC 框架利用 LLMs 建模文本的语义信息,设计基于 LLMs 的语义通信系统,实现了语义级和技术级性能的平衡。
2.1.1 5G/6G 网络与工业 5.0
LLMs 在 5G/6G 网络和工业 5.0 中的应用显著提升了边缘网络的性能[9]。例如,LLM-SC 框架利用 LLMs 建模文本的语义信息,设计基于 LLMs 的语义通信系统,实现了语义级和技术级性能的平衡。
LAM-MSC 提出了LLM的一种新应用,以增强多模态语义通信框架。
特别地,该研究引入了一种基于多模态语言模型(MLM)的多模态对齐(MMA)机制,利用CoDi进行模态转换,通过构建一个共享的多模态空间来支持整合模态的同步生成。
此外,为了能够理解个人信息,该框架结合了由LLM提供支持的知识库,特别是利用GPT-4。Noah Shinn [10]提出了一种称为M2 GSC的新框架。在该框架中,LLM作为共享知识库,发挥三个关键作用,包括复杂任务分解,语义表示规范,以及语义翻译和映射。它还催生了语义编码标准化和语义解码个性化等一系列好处。GMAC引入了一种基于语义信息提取的数据传输策略,有效地减少了MAS中传输的数据量。在该框架中,GMAC使用LLM来实现所观察到的状态和自然语言之间的语义对齐,从而促进压缩的语义通信。
这种方法通过提取和压缩相关信息来提高带宽效率,从而优化多代理通信中的数据传输。Khanh-Tung [11]提出MSADM,一种用于动态异构网络的端到端健康管理框架。
Mirac Suzgun[12]提出了一种新的解决方案。使用本地和邻近信息,MSADM覆盖健康管理生命周期的所有阶段,包括异常检测、故障诊断和缓解。通过集成LLM作为促进代理,MSADM有效地收集和处理异常数据,减少由不一致的数据表示引起的诊断错误。
2.1.2问答与自然语言生成(QA/NLG)
LLMs 在问答和自然语言生成任务中的应用显著提升了系统的能力。例如,OpenAI 的 Swarm 框架[13]通过引入“交接”机制,使多个智能体能够无缝协作,提升系统的效率和适应性。
2.1.3社会与文化领域
LLMs 和 MASs 在社会和文化领域的应用展示了这些系统在模拟人类行为、社会动态和文化互动方面的潜力。例如,CulturePark 框架[14]通过模拟跨文化互动,促进了跨文化理解和减少偏见。
图2-1 基于LLM的MAS支持的语义通信系统框架
参考文献
[1] Khanh-Tung Tran, Dung Dao, Multi-Agent Collaboration Mechanisms: A Survey of LLMs. IEEE Internet of Things Journal (2024), 1–1.
[2] Sahar Abdelnabi et al. 2024. Cooperation, Competition, and Maliciousness: LLM-Stakeholders Interactive Negotiation.
In The Thirty-eight Conference on Neural Information Processing Systems Datasets and Benchmarks Track.
[3] Suhaib Abdurahman et al. 2024. Perils and opportunities in using large language models in psychological research.PNAS Nexus (Jul. 2024).
[4] Josh Achiam et al. 2023. Gpt-4 technical report. arXiv preprint arXiv:2303.08774 (2023).
[5] Gati Aher et al. 2023. Using large language models to simulate multiple humans and replicate human subject studies.
In Proceedings of the International Conference on Machine Learning.
[6] Junhyeok Ahn and Luis Sentis. 2021. Nested mixture of experts: Cooperative and competitive learning of hybrid
dynamical system. In Learning for Dynamics and Control. PMLR, 779–790.
[7] Canfer Akbulut et al. 2024. All Too Human? Mapping and Mitigating the Risk from Anthropomorphic AI. Proceedings
of the AAAI/ACM Conference on AI, Ethics, and Society 7 (Oct. 2024), 13–26.
[8] Anonymous. 2024. DOMAIN GENERALIZATION VIA PARETO OPTIMAL GRADIENT MATCHING. In Submitted to The Thirteenth International Conference on Learning Representations. under review.
[9] Anonymous. 2024. Federated Domain Generalization with Data-free On-server Gradient Matching. In Submitted to The Thirteenth International Conference on Learning Representations. under review.
[10] Gabriele Ansaldo. 2023. AgentSpeak: A Framework for Agent-Based Modeling with Integrated Large Language Models;
Case Study: Analyzing Policy Interventions in Electric Vehicle Adoption. Master’s thesis. Northeastern University.
[11] Christopher A. Bail. 2024. Can Generative AI improve social science? Proceedings of the National Academy of Sciences121, 21 (2024), e2314021121.
[12] Rafael Barbarroxa et al. 2024. Benchmarking AutoGen with different large language models. In 2024 IEEE Conference on Artificial Intelligence (CAI). IEEE, 263–264.
[13] Kallista Bonawitz et al. 2021. Federated Learning and Privacy: Building privacy-preserving systems for machine learning and data science on decentralized data. Queue (Nov. 2021).
[14] Michele Braccini et al. 2024. Swarm Intelligence: A Novel and Unconventional Approach to Dance Choreography Creation.
[15] Weilin Cai et al. 2024. A Survey on Mixture of Experts. arXiv:2407.06204 [cs.LG]
[16] Chengzhi Cao et al. 2024. Enhancing Human-AI Collaboration Through Logic-Guided Reasoning. In The Twelfth International Conference on Learning Representations.
[17] Alan Chan et al. 2023. Harms from Increasingly Agentic Algorithmic Systems. In Proceedings of the 2023 ACM Conference on Fairness, Accountability, and Transparency (Chicago, IL, USA) (FAccT ’23). Association for Computing
Machinery, New York, NY, USA, 651–666.
[18] Chi-Min Chan et al. 2024. ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate. In The Twelfth International Conference on Learning Representations.
[19] Yupeng Chang et al. 2024. A survey on evaluation of large language models. ACM Transactions on Intelligent Systems and Technology 15, 3 (2024), 1–45.
[20] Guangyao Chen et al. 2024. AutoAgents: A Framework for Automatic Agent Generation. In Proceedings of the Thirty-Third International Joint Conference on Artificial Intelligence, IJCAI-24, Kate Larson (Ed.). International Joint Conferences on Artificial Intelligence Organization, 22–30. Main Track.
[21] Huaben Chen, Wenkang Ji, Lufeng Xu, and Shiyu Zhao. 2023. Multi-Agent Consensus Seeking via Large Language Models. ArXiv abs/2310.20151 (2023).
[22] Junzhe Chen et al. 2024. LLMArena: Assessing Capabilities of Large Language Models in Dynamic Multi-Agent Environments. In Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Association for Computational Linguistics, Bangkok, Thailand, 13055–13077.
[23] Pei Chen, Shuai Zhang, and Boran Han. 2024. CoMM: Collaborative Multi-Agent, Multi-Reasoning-Path Prompting for Complex Problem Solving. In Findings of the Association for Computational Linguistics: NAACL 2024, Kevin Duh, Helena Gomez, and Steven Bethard (Eds.). ACL, Mexico City, Mexico, 1720–1738.
[24] Weize Chen et al. 2024. AgentVerse: Facilitating Multi-Agent Collaboration and Exploring Emergent Behaviors. In The Twelfth International Conference on Learning Representations.