说明:之前发在公众号的这篇比较长,用相对轻松的播客形式再听一遍。由David的虚拟小伙伴Tony和Lily录制:)
作者介绍:姚顺雨,OpenAI研究员,思维树(Tree of Thoughts)作者。原题目为《AI的下半场》(The Second Half)
摘要:我们正站在AI发展的中场分界线上。但现在(2025年4月)发生了什么质变呢?
简而言之:强化学习(RL)终于奏效了。更准确地说:强化学习终于通用化了。
经过数次重大探索与里程碑的积累,我们已掌握一套通用配方,能通过语言与推理解决广泛的RL任务。哪怕在一年前,如果你告诉AI研究者"同一套方法能处理软件工程、创意写作、国际数学奥林匹克竞赛级数学、键鼠操作和长文本问答",他们只会嘲笑你在妄想——其中任何一项都足以让学者耗费整个博士生涯。
但奇迹已然发生。
那么接下来会怎样?AI的下半场——始于此刻——将把焦点从"解决问题"转向"定义问题"。新时代的胜负手不再是训练能力,而是评估体系。我们不再只问"能否训练模型解决X?",更要追问"该让AI解决什么?如何衡量实质进步?"要在这场新竞赛中胜出,我们需要思维和技能的转型——或许更接近产品经理的视角。