Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。
Summary
计算机使用代理(CUAs)在自动化日常数字任务方面具有潜力,但其不稳定性和高方差阻碍了其在长时程、复杂任务中的应用。我们提出 Behavior Best-of-N(bBoN),一种通过生成多条 rollout 并使用描述代理行为的行为叙事对其进行选择,从而实现对代理进行可扩展性的方式。该方法同时支持广泛探索与基于原理的轨迹选择,显著提升了鲁棒性和成功率。
在 OSWorld 上,我们的 bBoN 扩展方法达成了新的 SOTA(State of the Art):69.9%,显著优于先前方法,并接近 72% 的人类水平表现。全面的消融实验验证了关键设计选择的有效性。我们进一步在 WindowsAgentArena和 AndroidWorld 上展示了对不同操作系统的强泛化性能。
关键在于,我们的结果强调:当方法得当时,对 CUAs 的扩展具有“非合理的有效性”。有效的扩展需要对轨迹进行结构化理解与选择,而 bBoN 提供了一个实现这一点的实用框架。
原文链接:https://arxiv.org/abs/2510.02250