Listen

Description

在生成式AI爆发的三年里,自回归模型始终占据着技术舞台的核心,以逐字接龙的生成逻辑,成为打开AI革命的关键钥匙,主导了从对话机器人到内容创作的诸多场景,几乎定义了大众对大模型的认知。然而,当行业普遍沉浸于自回归模型的规模化红利时,扩散模型以“非共识者”的姿态悄然崛起,凭借独特的技术逻辑打破垄断,在多模态适配、生成效率等维度展现出超越潜力。

其中,千亿级模型LLaDA 2.0堪称里程碑式突破——它不仅首次将扩散语言模型推向千亿参数量级,更在性能上实现对谷歌Gemini Diffusion的超越,一举成为行业焦点。这场技术突围,不仅重新激活了AI技术路径的多元探索,更迫使行业深思:通往通用人工智能(AGI)的道路,究竟该执着于单一技术路线的极致深耕,还是拥抱多元范式的并行探索?

从ChatGPT横空出世时引发的行业震动,到智能涌现背后至今未解的“黑魔法”谜题;从硅谷昔日松散的工作节奏,到如今7×24小时的白热化内卷;从自回归模型的规模化“天花板”争议,到扩散模型面临的工程挑战与突破可能;再到学术与产业间的算力鸿沟,以及开源社区对技术共建的意义。本期《会友镖局》,我们将与蚂蚁集团LLaDA 2.0模型负责人赵俊博,一同探讨AI发展的机遇与困境,一场关于非共识技术路径背后的破局之道的对话即将展开。

👩 本期人物

主播: 蚂蚁集团 友红

嘉宾: 浙江大学百人计划研究员、博士生导师,蚂蚁集团资深技术专家 赵俊博

⏱️ 本期时间轴

00:43 非共识突围:扩散模型挑战自回归模式霸权地位

过去三年,自回归模型是AI革命的核心,而今年扩散模型异军突起,在多维度实现超越。蚂蚁集团开源的LLaDA 2.0模型,率先将扩散模型做到千亿级,性能已超越谷歌Gemini Diffusion模型,成为行业焦点。

03:43 6年前的AI状态:小模型主导的“一事一议”时代

2020年尚无GPT,AI行业聚焦视觉与自然语言领域的小模型,多为“一事一议”——针对具体场景优化指标,核心思路是适配数据场景提升position、recall等效果,与当前大模型时代的规模化逻辑截然不同。

04:46 智能涌现“Dark Magic”谜题

ChatGPT的聊天机器人概念并非新鲜事,Meta 2017年曾启动类似项目,却因算力想象力受限、技术路线判断偏差宣告失败。而ChatGPT的出现打破认知:其具备的记忆能力、推理能力并非单纯背诵,而是呈现“智能涌现”特性,这种“黑魔法”至今全球科学家都无法完全解释。

09:26 进化失控?AI发展速度打乱行业旧机制

ChatGPT带来两大意外:一是智能涌现的出现,二是发展速度远超预期——以月为单位迭代。以计算机领域为例,传统学术期刊(审稿周期1-3年)、学术会议(6个月投稿周期),长周期让论文内容刚发布就已过时,旧有机制被全面打乱。

12:09 硅谷反转:从“准点下班”到7×24小时驻场“扎营”

早几年硅谷工作节奏松散,Meta员工多为下午6-7点下班,周五几乎无人在岗;而如今硅谷陷入白热化内卷,在X.AI等公司员工甚至直接扎帐篷住在公司,7*24小时投入工作,颠覆了以往对硅谷的认知。

15:12 扩散模型,要“干掉”自回归?

研发扩散模型的核心并非否定自回归模型,而是探索AI的另一条路径:扩散模型的探索空间更大,天生适配图像、视频等多模态场景,有望打造原生统一化多模态大模型。其本质是用“完形填空”式的训练机制,挑战自回归“逐字接龙”的核心逻辑。

17:39 自回归模型未触天花板,数据与规模仍有拓展空间

赵俊博认为,自回归模型的Scaling Law尚未到顶。主要有3个原因:效果上,其在HLE等榜单分数持续提升;规模上,万亿参数模型已出现,且未来仍会扩大;数据上,物理空间未转化数据、仿真数据等未穷尽,并非只有互联网数据可用。

25:19 自回归模型是“成语接龙”,扩散模型是“完形填空”

自回归模型像逐字接龙,只能按顺序生成内容,无法回溯修改,如同无草稿纸答题;扩散模型通过加噪-去噪实现“完形填空”,支持并行解码,可编辑生成内容,甚至能先写结尾再填中间,推理速度比原生自回归模型快2-3倍。

29:27 两大模型的核心差异:注意力机制的“听书”与“读书”之别

自回归模型采用Causal Attention(因果注意力机制),只能看到前文内容,如同“听书”般逐字逐句接收;扩散模型采用 Full Attention (全注意力机制),可同时看到前后内容,类似“读书”时可跳读、回看,这是两者架构上的核心区别。

32:50 学术界困境:算力鸿沟下的机会缺失

当前学术界在自回归模型领域已难有机会:算力、数据资源远不及产业界,最多只能验证7B-16B规模模型,而大模型在不同规模下的现象差异巨大,学术研究难以匹配产业落地需求。扩散模型则因研究空间大,成为学术界新的机会点。

37:58 AI是独立新物种,不必执着仿生

赵俊博反对以仿生角度驱动AI研发:飞机虽源于鸟,但与鸟差异巨大;Transformer虽借鉴人脑神经元连接,却与大脑结构不同。AI是独立新物种,其“简单”与“复杂”的判断的与人类不同,且真正的智能本就难以完全解释,如同人类无法彻底理解自身大脑。

42:42 扩散与自回归,终会走向融合而非对立

目前LLaDA 2.0模型已采用“区块扩散+区块间自回归”的混合模式:区块内可并行生成32-64个token,区块间则按因果逻辑衔接。未来两者大概率会以某种形式融合,而非相互替代。

47:56 “三大拦路虎”:窗口、强化学习与工程瓶颈

扩散模型当前面临三大挑战:一是窗口大小有限,记忆能力弱于自回归模型;二是强化学习模式尚未完全跑通;三是工程层面,训练与推理引擎不如自回归模型成熟。开源LLaDA 2.0模型,正是希望联合社区共建解决方案。

🎯 核心观点

1.  扩散模型并非自回归的“捷径”,而是更难的工程挑战,其核心价值在于提供多模态AI的新路径,并行解码与可编辑性是关键优势。

2.  自回归模型scaling law未到顶,数据、规模仍有巨大空间,扩散与自回归并非对立,未来将走向融合。

3.  AI发展速度打破行业旧机制,学术与产业界的算力鸿沟加剧,扩散模型为学术界提供新的探索机会。

4.  无需以仿生角度定义AI,AI是独立新物种,智能涌现的“黑盒”特性,正是其高级智能的体现。

5.  全球AI行业陷入白热化内卷,硅谷与国内均开启高强度研发模式,非共识技术路径成为破局关键。

6.  扩散模型当前仍面临诸多技术挑战,需依赖开源社区共建,未来应用落地值得期待。

📝 名词解释:

扩散模型(Diffusion Models):这是一种内容生成技术,它模拟的是信号从噪声中逐渐恢复的过程。通过迭代地减少随机噪声来生成高质量的图像、文本和其他形式的数据。

自回归模型(Autoregressive Models):自回归模型预测序列中的下一个元素时,依赖于前面的元素。在文本生成领域,像基于Decoder-only的GPT系列(如GPT-3、GPT-4)就是典型的自回归模型,它们逐词预测下一个词,从而生成连贯的文本段落。

莫拉维克悖论:描述人工智能领域高级认知能力易实现而低级感知运动能力难复现的反直觉现象。该理论指出计算机处理逻辑推理等复杂任务所需计算资源较少,但模拟人类直觉性技能(如视觉识别、行走)却需巨大运算量 。

Epoch:在深度学习中,“epoch”指的是模型完整遍历整个训练数据集一次的过程。‌例如,如果训练数据集包含1000个样本,那么模型对这1000个样本都进行一次前向传播和反向传播,就完成了一个epoch。‌


内容策划:常常

运营:狐狸

更多节目信息,欢迎关注小红书:会友播客

添加小助手微信:huiyouhz,可以加入听友群喔