这份由 Google Research 与 DeepMind 等机构发布的报告探讨了智能体系统(Agent Systems)的扩展科学,重点研究了模型能力、协调架构与任务属性如何共同决定系统表现。研究者通过对 OpenAI、Google 和 Anthropic 三大模型家族在不同任务下的 260 种配置进行评估,对比了单智能体(SAS)与独立、中心化、去中心化及混合型四种多智能体架构(MAS)的差异。结果表明,增加智能体并不总是能提升性能,其效果高度取决于任务对齐度,例如工具密集型任务常因协调成本而导致性能下降。研究揭示了能力饱和效应及架构对错误传播的抑制作用,并建立了一个能以 87% 准确率预测最佳架构的量化预测框架。总之,该研究为从经验主义的智能体设计转向基于度量驱动的系统构建提供了理论支撑。