Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。
Evolution Strategies at the Hyperscale
Summary
我们提出 EGGROLL(Evolution Guided General Optimization via Low-rank Learning,基于低秩学习的进化引导通用优化),一种进化策略(Evolution Strategies,ES)算法,旨在将无需反向传播的优化方法扩展到适用于拥有数十亿参数的现代大型神经网络架构和超大规模种群规模。ES 是一类强大的黑盒优化方法,能够有效处理不可微或含噪目标函数,并可通过并行化实现良好的扩展性。
然而,朴素的 ES 在大规模场景下成本极高,其瓶颈主要来自生成矩阵扰动 E∈Rm×nE∈Rm×n 所需的计算与内存开销,以及为计算每个种群成员前向传播而进行的批量矩阵乘法。EGGROLL 通过生成随机矩阵 A∈Rm×rA∈Rm×r 与 B∈Rn×rB∈Rn×r(其中 r≪min(m,n)r≪min(m,n)),并以低秩矩阵扰动 AB⊤AB⊤ 替代全秩扰动 EE,从而有效克服了上述瓶颈。
由于整体参数更新是对 NN 个工作节点的结果进行平均,最终得到的更新仍然具有较高秩,但在内存与计算开销上实现了显著节省:与全秩 ES 相比,每一层的辅助存储从 mnmn 降低至 r(m+n)r(m+n),单次前向传播的计算复杂度也从 O(mn)O(mn) 降低至 O(r(m+n))O(r(m+n))。
理论分析表明,该低秩更新能够以快速的 O(1/r)O(1/r) 收敛速率逼近全秩更新。实验结果显示:(1)尽管速度更快,EGGROLL 在从零开始(tabula rasa)的强化学习设置中并未牺牲 ES 的性能;(2)在提升大语言模型推理能力方面,其表现可与 GRPO 相媲美;(3)EGGROLL 使得完全基于整数数据类型运行的非线性循环语言模型实现稳定的预训练成为可能。
原文链接:https://arxiv.org/abs/2511.16652