Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。
Summary
我们提出了 ComputerRL——一个面向自主桌面智能的框架,使智能体能够熟练地操作复杂的数字化工作空间。ComputerRL 引入了 API-GUI 范式,将程序化的 API 调用与直接的 GUI 交互统一起来,从而解决机器智能体与以人为中心的桌面环境之间固有的不匹配问题。
为了在多样化的桌面任务上实现能力提升与泛化,端到端强化学习(RL)的规模化训练至关重要;然而,由于环境效率低下以及长时间训练过程中的不稳定性,这一目标仍然面临诸多挑战。为支持可扩展且稳健的训练,我们构建了一套分布式强化学习基础设施,能够调度数千个并行的虚拟桌面环境,从而加速大规模在线强化学习。
此外,我们提出了一种名为 Entropulse 的训练策略,通过在强化学习与监督微调之间交替训练,有效缓解了长时间训练过程中出现的熵坍塌问题。我们将 ComputerRL 应用于开源模型 GLM-4-9B-0414 和 GLM-4.1V-9B-Thinking,并在 OSWorld 基准上进行了评测。结果表明,AutoGLM-OS-9B 达到了 48.9% 的新 SOTA 准确率,显著提升了通用智能体在桌面自动化任务中的表现。
我们的代码以及新的 OfficeWorld 基准测试已在所述 https 链接中公开。该算法与框架也已被用于构建 AutoGLM(Liu 等,2024b)。
原文链接:https://arxiv.org/abs/2508.14040