Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。
Outcome-based Reinforcement Learning to Predict the Future
Summary
带有可验证奖励的强化学习(Reinforcement Learning with Verifiable Rewards,RLVR)已被证明是一种有效方法,可提升大语言模型在编程和数学等领域中的推理能力。在本文中,我们将 RLVR 方法应用于现实世界未来事件的预测这一任务——由于结果高度噪声化且存在显著延迟,这对强化学习而言尤具挑战性。
我们使用了一个新构建的数据集,其中包含来自预测市场的最新问题以及与之相关的新闻标题。实验表明,一个相对紧凑的(140 亿参数)推理模型,经过训练后,其预测准确率可以达到甚至超过 o1 等前沿模型,同时在概率校准方面有显著提升。
该模型的性能在实践中也具有现实意义:在一项 Polymarket 的交易仿真中,我们估计该模型在测试集所有问题上的下注将带来超过 10% 的投资回报率(ROI)。此外,我们还详细介绍并比较了模型训练中采用的多种方法,包括:利用合成预测问题扩充训练数据、用于保障学习稳定性的防护机制(guardrails),以及在推理阶段采用的中位数预测采样策略。
原文链接:https://arxiv.org/abs/2505.17989