«

迈向规模化智能体系统的科学:智能体系统何时有效及为何有效

qimuai 发布于 阅读:24 一手编译


迈向规模化智能体系统的科学:智能体系统何时有效及为何有效

内容来源:https://research.google/blog/towards-a-science-of-scaling-agent-systems-when-and-why-agent-systems-work/

内容总结:

谷歌研究团队提出AI智能体系统规模化设计新原则:多智能体协作并非“多多益善”

2026年1月28日,谷歌研究院高级研究员刘欣与研究实习生Yubin Kim发表最新研究成果,首次通过大规模对照实验揭示了AI智能体系统的规模化设计原则。研究表明,盲目增加智能体数量并非总能提升性能,任务特性与系统架构的匹配度才是关键。

随着AI智能体(具备推理、规划与行动能力的系统)在编程助手、健康顾问等实际场景中广泛应用,行业正从单次问答转向持续的多步骤交互。然而,如何科学设计智能体系统以优化性能,一直缺乏量化指导。业界常假设“智能体越多越好”,但该研究通过系统评估180种智能体配置,对此提出了挑战。

研究团队首先明确了“智能体任务”的三个核心特征:与外部环境持续多步交互、在部分可观测条件下迭代收集信息、依据环境反馈动态调整策略。在此基础上,团队对比了五种典型架构在金融分析、网页导航、规划与工具使用等四类任务中的表现,包括单智能体、独立并行、中心化协调、去中心化协作及混合模式。

核心发现如下:

  1. 并行任务显著受益:在可并行任务(如金融分析)中,中心化协调架构相比单智能体性能提升80.9%,因任务可拆解并由多个智能体同步处理。
  2. 顺序任务性能下降:在严格顺序性任务(如规划)中,所有多智能体架构性能反而降低39%-70%,因协调开销割裂了推理链条,削弱了整体效率。
  3. 工具协调存在瓶颈:当任务涉及大量工具调用时,多智能体间的协调成本会不成比例地增加,形成“工具协调权衡”。
  4. 架构影响系统可靠性:研究发现,独立并行架构的错误传播放大效应高达17.2倍,而中心化架构通过调度员的“验证瓶颈”作用,将错误传播控制在4.4倍,显著提升了系统鲁棒性。

基于实验结果,团队进一步构建了预测模型(R²=0.513),该模型可通过任务工具数量、可分解性等特征,为87%的新任务配置推荐最优架构。这标志着智能体系统设计正从经验直觉走向量化科学。

刘欣表示:“更强大的基础模型不会取代多智能体系统,反而会加速其发展,但前提是架构必须与任务匹配。通过遵循量化原则,我们有望构建出更智能、更安全、更高效的新一代AI智能体系统。”

该研究为AI智能体的规模化应用提供了关键设计框架,有助于推动产业界针对任务特性精准选择系统架构,避免资源浪费与性能损耗。

中文翻译:

迈向智能体系统规模化科学:智能体系统何时有效,为何有效
2026年1月28日
金裕彬(研究实习生)与刘欣(高级研究员),谷歌研究院

通过对180种智能体配置的受控评估,我们首次推导出人工智能智能体系统的量化扩展原则:研究发现,多智能体协作能显著提升并行任务性能,却会降低序列任务效率;同时我们构建的预测模型可为87%未知任务识别最优架构。

快速导读
具备推理、规划与行动能力的人工智能智能体系统正成为现实应用的主流范式。从代码助手到个人健康顾问,行业正从单次问答转向持续的多步骤交互。尽管研究者长期沿用传统指标优化机器学习模型精度,但智能体系统引入了新的复杂性维度——与孤立预测不同,智能体需在持续交互中应对可能引发连锁反应的错误。这促使我们超越传统精度标准,转而思考:如何真正设计出性能最优的系统?

从业者常依赖经验法则,例如“智能体越多越好”的假设,认为增加专业智能体总能提升效果。既有研究曾指出“大语言模型性能随智能体数量增长”,协作扩展研究也发现多智能体协作“常通过集体推理超越个体表现”。

在我们的新论文《迈向智能体系统规模化科学》中,我们挑战了这一假设。通过对180种配置的大规模受控实验,我们首次提出智能体系统的量化扩展原则,揭示“增加智能体”策略存在效能天花板,若与任务特性不匹配甚至会导致性能下降。

定义“智能体化”评估标准
为理解智能体扩展规律,我们首先界定任务的“智能体化”特征。传统静态基准测试仅衡量模型知识储备,无法反映部署复杂性。我们认为智能体化任务需具备三大特性:

我们在四个差异化基准测试中评估了五种经典架构(单智能体系统及四种多智能体变体),涵盖金融推理、网页导航、规划决策与工具调用等领域。架构定义如下:

研究结果:“更多智能体”迷思
通过测试三大前沿模型系列,我们发现模型能力与协作策略存在复杂关联。尽管高性能模型普遍提升表现,但多智能体系统并非万能解方——其效果可能显著提升或意外恶化,完全取决于具体配置。

跨领域性能对比显示:在网页浏览等并行任务中,多智能体团队较单智能体基线最高提升80.9%;但在规划类序列任务中,所有多智能体变体性能下降39-70%。箱形图数据分布与百分比变化揭示:增加智能体对可并行任务增益显著,对序列工作流则可能产生收益递减甚至负面效应。

协同对齐原则
在金融推理等可并行任务中(如多智能体同步分析营收趋势、成本结构与市场对比),中心化协调架构较单智能体性能提升80.9%。问题分解能力使智能体协同更高效。

序列任务惩罚
在需严格顺序推理的任务中,多智能体架构因通信开销割裂推理过程,导致用于实际任务的“认知预算”不足。

工具调用瓶颈
我们发现了“工具协调权衡”现象:当任务涉及更多工具时(如调用16种以上工具的编程智能体),多智能体协调成本呈超比例增长。

架构作为安全特性
通过测量错误放大率(单个错误传导至最终结果的概率),我们发现独立并行系统错误放大17.2倍,而中心化架构通过调度器的“验证瓶颈”机制将放大率控制在4.4倍。

智能体设计预测模型
我们构建的预测模型(R²=0.513)可通过工具数量、任务可分解性等可测量特性,为87%未知任务配置推荐最优协作策略。这标志着智能体扩展正走向科学化——开发者可根据任务序列依赖性与工具密度做出原则性设计决策,而非盲目选择智能体数量。

结论
随着基础模型持续演进,更强大的模型不会取代多智能体系统,反而会加速其发展,但前提是架构设计必须合理。从经验法则转向量化原则,我们将构建出更智能、更安全、更高效的新一代人工智能智能体。

致谢
感谢来自谷歌研究院、谷歌DeepMind及学术界的合作者对本研究作出的贡献。

英文来源:

Towards a science of scaling agent systems: When and why agent systems work
January 28, 2026
Yubin Kim, Research Intern, and Xin Liu, Senior Research Scientist, Google Research
Through a controlled evaluation of 180 agent configurations, we derive the first quantitative scaling principles for AI agent systems, revealing that multi-agent coordination dramatically improves performance on parallelizable tasks but degrades it on sequential ones; we also introduce a predictive model that identifies the optimal architecture for 87% of unseen tasks.
Quick links
AI agents — systems capable of reasoning, planning, and acting — are becoming a common paradigm for real-world AI applications. From coding assistants to personal health coaches, the industry is shifting from single-shot question answering to sustained, multi-step interactions. While researchers have long utilized established metrics to optimize the accuracy of traditional machine learning models, agents introduce a new layer of complexity. Unlike isolated predictions, agents must navigate sustained, multi-step interactions where a single error can cascade throughout a workflow. This shift compels us to look beyond standard accuracy and ask: How do we actually design these systems for optimal performance?
Practitioners often rely on heuristics, such as the assumption that "more agents are better", believing that adding specialized agents will consistently improve results. For example, "More Agents Is All You Need" reported that LLM performance scales with agent count, while collaborative scaling research found that multi-agent collaboration "...often surpasses each individual through collective reasoning."
In our new paper, “Towards a Science of Scaling Agent Systems”, we challenge this assumption. Through a large-scale controlled evaluation of 180 agent configurations, we derive the first quantitative scaling principles for agent systems, revealing that the "more agents" approach often hits a ceiling, and can even degrade performance if not aligned with the specific properties of the task.
Defining "agentic" evaluation
To understand how agents scale, we first defined what makes a task "agentic". Traditional static benchmarks measure a model's knowledge, but they don't capture the complexities of deployment. We argue that agentic tasks require three specific properties:

谷歌研究进展

文章目录


    扫描二维码,在手机上阅读