AI智能体系统扩展规律研究:何时何原因有效
创始人
2026-01-29 22:22:37
0

构建智能体系统扩展科学规律的研究

通过对180种智能体配置的控制性评估,我们首次得出了AI智能体系统的定量扩展原理。研究显示,多智能体协调在可并行任务上能显著提升性能,但在序列任务上却会降低性能。我们还推出了一个预测模型,能为87%的未见任务识别出最优架构。

智能体系统的复杂性挑战

AI智能体——具备推理、规划和行动能力的系统——正成为现实世界AI应用的常见范式。从编程助手到个人健康教练,行业正从单次问答转向持续的多步骤交互。虽然研究人员长期使用既定指标来优化传统机器学习模型的准确性,但智能体引入了新的复杂性层级。与孤立预测不同,智能体必须导航持续的多步骤交互,其中单个错误可能在整个工作流程中产生级联影响。这种转变迫使我们超越标准准确性,思考:我们究竟如何设计这些系统以实现最优性能?

从业者经常依赖启发式方法,比如"更多智能体更好"的假设,相信增加专业化智能体会持续改善结果。例如,"更多智能体就是全部所需"报告指出大语言模型性能会随智能体数量扩展,而协作扩展研究发现多智能体协作"...通过集体推理经常超越单个个体"。

在我们的新论文"构建智能体系统扩展科学"中,我们质疑了这一假设。通过对180种智能体配置的大规模控制评估,我们得出了智能体系统的首个定量扩展原理,揭示"更多智能体"方法经常遇到天花板,如果与任务的特定属性不匹配,甚至会降低性能。

定义智能体任务的特性

为了理解智能体如何扩展,我们首先定义了什么使任务具有"智能体特性"。传统静态基准衡量模型的知识,但它们无法捕获部署的复杂性。我们认为智能体任务需要三个特定属性:

我们评估了五种规范架构:一个单智能体系统(SAS)和四个多智能体变体(独立、集中、分散和混合),跨越四个不同基准,包括Finance-Agent(金融推理)、BrowseComp-Plus(网页导航)、PlanCraft(规划)和Workbench(工具使用)。智能体架构定义如下:

本研究评估的五种规范智能体架构总结,包括它们的计算复杂性、通信开销和协调机制。k = 每个智能体的最大迭代次数,n = 智能体数量,r = 协调器轮数,d = 辩论轮数,p = 对等通信轮数,m = 每轮平均对等请求数。通信开销计算智能体间消息交换。独立提供最大并行化和最小协调。分散使用顺序辩论轮数。混合结合协调器控制和定向对等通信。

模型能力对智能体性能的影响

为了量化模型能力对智能体性能的影响,我们在三个领先模型系列中评估了我们的架构:OpenAI GPT、Google Gemini和Anthropic Claude。结果揭示了模型能力与协调策略之间的复杂关系。如下图所示,虽然性能通常随着更强大的模型呈上升趋势,但多智能体系统并非通用解决方案——根据具体配置,它们可能显著提升或意外降低性能。

跨三个主要模型系列(OpenAI GPT、Google Gemini、Anthropic Claude)的性能比较显示,不同智能体架构如何随模型智能扩展,其中多智能体系统可能根据配置提升或降低性能。

下面的结果比较了五种架构在不同领域的性能,如网页浏览和金融分析。箱形图表示每种方法的准确性分布,而百分比表示多智能体团队相比单智能体基线的相对改进(或下降)。这些数据突出显示,虽然增加智能体可以在可并行任务上带来巨大收益,但在更多序列工作流程中经常导致收益递减——甚至性能下降。

特定任务性能显示,多智能体协调在可并行任务如Finance-Agent上产生实质性收益(+81%),而在序列任务如PlanCraft上降低性能(-70%)。

在可并行任务如金融推理中(例如,不同智能体可以同时分析收入趋势、成本结构和市场比较),集中协调相比单智能体提升了80.9%的性能。将复杂问题分解为子任务的能力允许智能体更有效地工作。

相反,在需要严格序列推理的任务中(如PlanCraft中的规划),我们测试的每个多智能体变体都降低了39-70%的性能。在这些场景中,通信的开销分割了推理过程,为实际任务留下了不足的"认知预算"。

我们识别了"工具-协调权衡"。随着任务需要更多工具(例如,具有16+工具访问权限的编程智能体),协调多个智能体的"税费"不成比例地增加。

架构与可靠性的关系

对于现实世界部署来说最重要的是,我们发现了架构与可靠性之间的关系。我们衡量了错误放大,即一个智能体的错误传播到最终结果的速率

跨架构的综合指标显示,集中系统在成功率和错误控制之间实现了最佳平衡,而独立多智能体系统的错误放大高达17.2倍。

我们发现独立多智能体系统(智能体并行工作而不交流)将错误放大了17.2倍。没有检查彼此工作的机制,错误无控制地级联。集中系统(带有协调器)将这种放大控制在仅4.4倍。协调器有效地充当"验证瓶颈",在错误传播前捕获它们。

预测最优架构的模型

超越回顾,我们开发了一个预测模型(R^2 = 0.513),使用可测量的任务属性如工具数量和可分解性来预测哪种架构将表现最佳。该模型正确识别了87%未见任务配置的最优协调策略。

这表明我们正迈向智能体扩展的新科学。开发者现在可以查看任务的属性,特别是其序列依赖性和工具密度,来做出有原则的工程决策,而不是猜测是否使用智能体群或单个强大模型。

未来展望

随着Gemini等基础模型的持续进步,我们的研究表明更智能的模型不会取代多智能体系统的需求,而是加速它,但仅当架构正确时。通过从启发式转向定量原理,我们可以构建下一代AI智能体,它们不仅数量更多,而且更智能、更安全、更高效。

我们要感谢来自Google Research、Google DeepMind和学术界的共同作者和合作者对这项工作的贡献。

Q&A

Q1:什么是智能体系统的扩展规律?

A:智能体系统的扩展规律是指通过研究发现的定量原理,揭示了多智能体协调在可并行任务上能显著提升性能80.9%,但在序列任务上会降低39-70%的性能。这打破了"更多智能体更好"的传统假设。

Q2:如何选择最适合的智能体架构?

A:可以通过预测模型来选择,该模型使用任务的可测量属性如工具数量和可分解性来预测最优架构。模型能为87%的未见任务正确识别最优协调策略,准确率达到R^2=0.513。

Q3:多智能体系统的错误放大问题如何解决?

A:研究发现集中系统能最好地平衡成功率和错误控制。独立多智能体系统错误放大高达17.2倍,而集中系统仅为4.4倍。协调器充当"验证瓶颈",能在错误传播前捕获它们。

相关内容

热门资讯

外滩光影里的石库门:上海把百年... 暮色漫过黄浦江岸,晚风卷着江雾掠过外滩滨江的栏杆。当第一缕灯光爬上石库门的清水砖墙,青红砖交错的肌理...
马踏春归·雅韵二七丨2026新... 大象新闻记者 池里军 罗雅静 通讯员 李静涵2026马年新春,郑州市二七区放大招啦!二七区文旅体育局...
Salesforce AI架构... 扩展企业级AI需要克服架构设计上的盲点,这些问题往往会让试点项目在投入生产前就陷入停滞,这个挑战远远...
点到为止|AI说错话,平台要不... AI“说大话”,莫轻信 去年6月,杭州考生家属梁某使用某公司AI平台查询报考信息时,发现平台生成关于...
AI智能体系统扩展规律研究:何... 构建智能体系统扩展科学规律的研究 通过对180种智能体配置的控制性评估,我们首次得出了AI智能体系统...
微软发布第二代AI推理芯片Ma... 微软宣布推出Maia 200,这是一款突破性的推理加速器和推理动力引擎,标志着AI的未来可能不仅在于...
特斯拉加码押注AI与机器人领域 当地时间1月28日,特斯拉最新披露,受电动车市场竞争加剧及自身优势减弱影响,公司2025年第四季度利...
航宇微:玉龙810为通用AI芯... 证券之星消息,航宇微(300053)01月29日在投资者关系平台上答复投资者关心的问题。 投资者提问...
迪泽向Sacem授权AI音乐检... 音乐流媒体平台迪泽已将其人工智能音乐检测技术授权给法国音乐版权管理机构Sacem,此次合作成为打击音...
刚刚,创智+模思发布开源版So... 编辑|泽南、Panda 今天上午,上海创智学院 OpenMOSS 团队联合初创公司模思智能(MOSI...