Listen

Description

📝 本期播客简介

本期我们克隆了:Scaling Test Time Compute to Multi-Agent Civilizations — Noam Brown, OpenAI

他们邀请到OpenAI的重磅研究员诺姆·布朗(Noam Brown)。诺姆不仅是能媲美顶尖人类玩家的《外交》AI“西塞罗”的创造者,更是凭借对AI策略的深刻理解摘得该游戏世界冠军的传奇人物。在本期节目中,诺姆将从这段经历出发,深入剖析OpenAI内部备受瞩目的O系列推理模型,并用“思考,快与慢”的生动类比,揭示AI进行深度推理的奥秘。你还将听到他对多智能体系统构建“AI文明”的宏大构想、对AI编程未来的展望,以及关于OpenAI如何做出关键技术路线决策的珍贵幕后故事。

👨‍⚕️ 本期嘉宾

诺姆·布朗(Noam Brown),OpenAI研究员。他因在Meta AI工作期间领导开发了在复杂策略游戏《外交》中取得突破的AI“西塞罗”(Cicero)而闻名,并于2022年亲自赢得《外交》世界冠军。此前,他因在扑克AI(Libratus)领域的研究而备受赞誉。他的工作专注于AI推理、多智能体系统和博弈论的前沿。

📒 文字版精华

微信公众号(点击跳转)

⏱️ 时间戳

00:55 开场总结

外交AI“西塞罗”的幕后

02:09 开发AI如何帮助Noam赢得世界冠军

04:09 早期语言模型的局限与AI安全性的思考

O系列推理模型与OpenAI的研发哲学

07:21 O系列模型的快速进展与Deep Research的应用

10:48 “思考,快与慢”:AI推理的系统1与系统2类比及其局限

15:05 “束缚装置”与模型路由:临时拐杖终将被规模化淘汰

22:01 强化学习微调(RFT)为何能超越模型迭代

22:49 推理范式的诞生:与Ilya Sutskever的对话及OpenAI的内部博弈

AI编程、数据效率与未来工作

29:59 数据效率:AI领域最重要的未解难题之一

33:36 Noam Brown的编程工作流:如何“压榨”Codex并“感受AGI”

39:20 AI的未来:从编程助手到胜任各类远程办公任务

多智能体、博弈论与机器人学

41:37 多智能体研究:从“AI穴居人”到“AI文明”

45:07 深度解析扑克AI:GTO策略与剥削性打法的权衡

53:30 自我对弈的局限:为何AlphaGo的成功范式难以复制

59:10 机器人学的挑战:硬件迭代的痛苦与人形机器人的反思

快问快答 & 总结

01:03:01 顶尖实验室如何追踪前沿研究

01:05:42 “测试时计算”的瓶颈:成本与时间墙

01:11:25 游戏推荐:《血染钟楼》

01:12:30 AI能征服《万智牌》这样的复杂游戏吗?

🌟 精彩内容

西塞罗的传奇: 从开发AI到赢得世界冠军的独特经历,以及对AI安全的可控性启发。

“思考,快与慢”新解: 揭示推理模型(O系列)如何工作,以及其成功的先决条件——一个足够强大的基础模型。

OpenAI内部故事: 关于推理范式如何诞生、与Ilya Sutskever的对话,以及内部关于技术路线的决策与博弈。

“惨痛教训”的普适性: 为什么“束缚装置”、模型路由等复杂工程最终可能被纯粹的规模化所淘汰。

博弈论AI深度剖析: 从扑克到《外交》,探讨GTO(博弈论最优)与剥削性策略的差异,以及自我对弈在复杂系统中的局限性。

AI的未来形态: 探讨AI如何从编程助手扩展到更广泛的认知工作,以及多智能体系统如何通过协作竞争构建“AI文明”。

🌐 播客信息补充

翻译克隆自:Scaling Test Time Compute to Multi-Agent Civilizations — Noam Brown, OpenAI

本播客采用原有人声声线进行播客音频制作,也可能会有一些地方听起来怪怪的

使用 AI 进行翻译,因此可能会有一些地方不通顺;

如果有后续想要听中文版的其他外文播客,也欢迎联系微信:iEvenight