Listen

Description

The Long View 世界模型特辑的彩蛋集,承接前一期 (E11) 的 wiki 版深度解读,这一期专门讲那一期没讲到的部分——来自配套的 14 节研究报告。本期回答六个问题:第一,写一份会随时间老去的 AI 行业报告,方法和边界长什么样;第二,世界模型的认知科学家底——Craik 1943、Kahneman System 2、Friston 预测编码这三条线是怎么连起来的,为什么这关系到你怎么读今天的产品博客;第三,JEPA 的技术血统——EMA target encoder + stop_gradient 不是 LeCun 拍脑袋的发明,它继承自 2020 年 DeepMind 的 BYOL 和 Meta 的 DINO;V-JEPA 2 还用了一个叫 progressive resolution schedule 的工程小招;第四,Sora 的物理失败到底长什么样——研究者归纳出的"颜色优先、大小其次、速度再次、形状最后"特征学习层级,为什么直接挑战 OpenAI 的 scaling 哲学;第五,未来 12-24 个月最值得盯的 5 个具体节点——LLM-on-world-model stack 上岸、latent vs pixel 在控制 benchmark 上分胜负、Cosmos 成为非前沿实验室的默认基底、Sora 3 的物理-fidelity 考、world model 范畴名词分裂;第六,为什么任何一份 AI 行业报告都该专门写一节"本报告的局限性"——闭源失明、拐点报道偏差、日期敏感性、没有跑过 benchmark。听完这一期,你下次再读到任何"AI 趋势报告""季度展望""赛道扫描",都会先去找它的方法节和局限节。