Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法方向,让大家跟着AI一起进步。
Reinforcement Pre-Training
Summary
该论文介绍了一种名为强化预训练(RPT)的新范式,旨在通过强化学习(RL)改进大型语言模型(LLMs)的预训练。RPT将传统的下一个词元预测任务重新定义为推理任务,模型因正确预测下一个词元而获得可验证的奖励。这种方法允许LLMs利用海量的文本数据进行通用的强化学习,无需依赖领域特定的标注。实验结果表明,RPT显著提高了下一个词元预测的准确性,并为后续的强化微调提供了更强大的基础,同时展示了随着训练计算量增加性能持续提升的良好扩展特性。该研究认为RPT提供了一个有前景的途径,能够通过根本性地重新思考预训练目标来开发更强大、更通用的LLMs。
原文链接:https://arxiv.org/abs/2506.08007