Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。
Summary
强化学习(Reinforcement Learning, RL)已被证明在提升大型语言模型(LLM)的复杂推理能力方面非常有效,但其成功背后的内在机制仍然大多不透明。我们的分析揭示,诸如“顿悟时刻”(aha moments)、“长度扩展”(length-scaling)以及熵动态等令人困惑的现象,并非彼此孤立,而是一个新兴推理层级结构的标志,类似于人类认知中高层次战略规划与低层次程序执行之间的分离。我们揭示了一个引人注目的两阶段动态:在初始阶段,模型受制于程序正确性,必须提升其低层技能;随后学习瓶颈发生决定性转移,性能提升主要由对高层战略规划的探索与掌握驱动。
这一洞见暴露了现有 RL 算法(如 GRPO)中的核心低效性:它们以一种与层次无关的方式施加优化压力,使得学习信号在所有 token 间被稀释。为解决这一问题,我们提出了 Hierarchy-Aware Credit Assignment(HICRA),一种将优化努力集中在高影响力规划 token 上的算法。我们的大量实验证实了 HICRA 显著优于强基线方法,并通过战略性探索的视角,对推理能力如何进步提供了深刻洞察。
原文链接:https://arxiv.org/abs/2509.03646