Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。
Towards a Science of Scaling Agent Systems
Summary
智能体(Agents)——即基于大语言模型、具备推理、规划与行动能力的系统——正逐渐成为现实世界 AI 应用的主流范式。尽管其应用日益广泛,但决定智能体系统性能的基本原理仍缺乏深入研究。为此,本文系统性地推导了智能体系统的定量化扩展规律(scaling principles)。
我们首先形式化定义了智能体评测(agentic evaluation),并将扩展规律刻画为智能体数量、协作结构、模型能力与任务属性之间的相互作用。我们在四个基准测试上进行了评估:Finance-Agent、BrowseComp-Plus、PlanCraft 和 Workbench。实验涵盖五种典型的智能体架构,包括单智能体(Single-Agent)以及四类多智能体系统(独立式、集中式、去中心化式和混合式),并在三类 LLM 家族上进行实例化,共构成 180 种受控配置。
基于协作相关的度量指标,我们构建了一个预测模型,其交叉验证 R2=0.524R2=0.524,能够对未见过的任务领域进行性能预测。研究识别出三种关键效应:
在可并行化任务中,集中式协作可将性能提升 80.8%;而在网页导航类任务中,去中心化协作表现更优(提升 9.2%,而集中式仅提升 0.2%)。相反,对于顺序推理任务,所有多智能体变体均导致性能下降,降幅介于 39% 至 70% 之间。
该框架能够为 87% 的留出配置准确预测最优协作策略。在 GPT-5.2 上进行的样本外验证取得了 MAE=0.071,并验证了五条扩展规律中的四条能够泛化至此前未见的前沿模型。这些结果为理解与设计高效的智能体系统提供了系统化、定量化的理论基础。
原文链接:https://arxiv.org/abs/2512.08296