Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。
OPENCUA: Open Foundations for Computer-Use Agents
Summary
视觉—语言模型已展示出作为计算机使用代理(Computer-Use Agents,CUAs)的卓越能力,能够自动化完成多种计算机任务。随着其商业潜力不断提升,最先进的 CUA 系统的关键技术细节仍然处于封闭状态。鉴于这类代理将日益在数字交互中充当中介,并代表我们执行具有重要影响的决策,研究社区亟需开放的 CUA 框架,以系统性地研究其能力、局限性与潜在风险。为弥补这一缺口,我们提出了 OpenCUA,一个用于扩展 CUA 数据与基础模型的综合性开源框架。
该框架包括以下三项核心组成部分:(1)一个标注基础设施,能够无缝捕获人类的计算机使用示范;(2)AgentNet,这是首个大规模计算机使用任务数据集,覆盖 3 种操作系统以及 200 余个应用程序和网站;(3)一个可扩展的数据处理流水线,将示范转化为状态—动作对,并引入具有反思性的长链式思维(Chain-of-Thought)推理,从而在数据规模扩大时持续带来稳健的性能提升。
我们的端到端代理模型在多项 CUA 基准测试中表现出强劲性能。尤其是,OpenCUA-72B 在 OSWorld-Verified 上取得了 45.0% 的平均成功率,在开源模型中建立了新的最优性能(SOTA)。进一步分析表明,该方法在跨领域场景中具有良好的泛化能力,并且能够显著受益于测试阶段计算量的增加。我们已公开发布标注工具、数据集、代码及模型,以构建开放基础,推动后续 CUA 研究的发展。
原文链接:https://arxiv.org/abs/2508.09123