Listen

Cast

Description

「与 InfLLM 与 MoA 的两位作者一起聊注意力。注意“注意力”是为了可预见的长长长……文本。」

(题图:levelsio.com 上售卖的 Attention 鸭舌帽。)

本期图文版:《大模型 “注意力简史”:与两位 AI 研究者从 DeepSeek、Kimi 最新改进聊起》

上周,DeepSeek、Kimi 都放出了新的大模型架构改进和优化成果,分别是 NSA、MoBA(GitHub)。他们都聚焦到了对大模型中的“注意力机制”的改进。

注意力机制是大语言模型(LLM)的核心机制。回到 2017 年 6 月那篇开启大语言模型革命的 Transformer 八子论文,标题就是:Attention Is All You Need(注意力就是你所需要的一切)。

而优化 Attention 的计算效率和效果,又能帮助解决,AI 学界和业界,都非常关心的一个问题,就是长文本,long context——不管是要一次输入一整本书,让模型能帮我们提炼、理解;还是在现在用强化学习来提升推理能力的范式转型后,需要生成长思维链;又或者是,我们未来希望模型有越来越长的“记忆”,这都需要长文本能力的支持。

这期节目,我们邀请了两位也做过 Attention 机制改进的 AI 研究者,一起聊 attention 它是什么,过去的瓶颈在哪儿,以及最新的 NSA、MoBA 这些成果带来了哪些启发;和未来注意力机制及更广泛的长文本能力提升上,有哪些趋势和方向。

本期嘉宾:

他们之前的成果都和 NSA、MoBA 一样属于“稀疏注意力”改进的范畴。

注意力机制是一个会涉及较多技术细节的话题。我在 shownotes 的末尾贴了一些术语和过往注意力优化成果的简单解释,希望可以帮大家更好得理解。

如果你虽然不是一个 AI 从业者,但又因为兴趣、好奇或工作需要,非常希望由浅入深得了解更具体的技术机制和进展。欢迎多听我们的节目,这次我也在 shownotes 里贴了一些 AI 大神用相对通俗方式讲解 AI 的视频节目的地址。

让我们一起学习起来!

不是每个人都需要或有精力去了解 AI 底层技术,但很多人都会被 AI 影响,都需要“智能思维”。

时间线跳转

相关链接

AI 视频科普视频推荐:1hr Talk Intro to Large Language Models (Andrej Karpathy)

月之暗面 MoBA 核心作者自述:一个 “新晋大模型训练师” 的三入思过崖

晚点聊 102: DeepSeek 启动开源周,大模型开源到底在开什么?

附录

(基本按本期播客中的出场顺序)

稀疏注意力:仅关注输入序列中部分关键位置的注意力机制,降低计算复杂度。

稠密 VS 稀疏:稠密指数据/计算全连接;稀疏指仅部分连接,效率更高。

稀疏计算:仅处理非零数据的计算方式,显存和算力需求更低。

稠密计算:处理所有数据的计算方式,计算量较大但精度高。

128k、1M 等:是在描述文本的长度,128k 就是 12.8 万。

显存:显卡存储空间,用于存放模型参数和计算中间结果。

算子:基础计算单元(如矩阵乘法),硬件加速优化的核心对象。

Sequence 序列:有序数据集合(如文本、语音),模型处理的基本单位。

RNN 循环神经网络:通过时序传递状态处理序列数据的神经网络架构。

梯度消失、梯度爆炸:反向传播中梯度指数级减小或增大,导致模型无法训练。

Token:文本的最小语义单元(如词、子词),模型输入的基本元素。

长文本:模型支持处理的超长输入序列(如数万token)。

BERT:由Google在2018年提出的基于双向Transformer的预训练语言模型。

Full Attention:标准注意力机制,计算所有位置间关系,复杂度O(N²)。

N方复杂度:计算量随序列长度N呈平方增长(如O(N²))。

Softmax:归一化函数,将向量映射为概率分布。

Softmax Attention:标准注意力实现,含Softmax计算相似度权重。

Attention Score:注意力权重,表示输入位置间相关性强度。

Mamba:由卡内基梅隆大学在2023年提出的基于状态空间模型的高效长序列建模架构。

线性注意力:通过核函数近似实现线性复杂度的注意力机制。

Tri Dao、Albert Gu:两位 AI 研究者,其中 Tri Dao 是 FlashAttention 的作者,两位也都是 Mamba 的作者。

FlashAttention:由斯坦福大学在2022年提出的显存高效注意力算法,通过分块计算减少IO开销。

MoE 混合专家系统:动态路由至不同子模型提升容量的架构。

MLA:多层注意力机制,增强模型复杂模式捕获能力。

Mooncake:Kimi 和清华大学联合开发的大规模稀疏训练框架。

GitHub 库:代码托管平台,开源项目协作与版本管理工具。

预印本平台(arXiv):学术论文预发布平台,加速研究成果传播。

长思维链:扩展版思维链提示,通过长推理步骤提升模型表现。

Block:计算或数据的基本分块单位(如Transformer块)。

Triton:由OpenAI开发的GPU编程语言与编译器,支持高效自定义算子开发。

Decoding 阶段加速:减少生成式模型逐token输出的推理延迟。

Query:注意力机制中用于匹配Key的向量。

Training Curve:训练过程中指标(如损失)随迭代的变化曲线。

消融实验:逐步移除模型组件以验证其贡献的实验方法。

KV Compression:压缩注意力中的Key-Value缓存以节省显存

KV Eviction:淘汰不重要Key-Value,维持长上下文效率。(以上两个项目是在描述对多模态的注意力机制优化的以往相关成果时提及)

FrameFusion:视频多帧融合技术,提升时序建模效果。(讨论多模态注意力优化时,天予提到的清华 NICS-EFC 实验室最近开源的一个成果)

剪辑制作:甜食

本期主播:小红书 @曼祺_火柴Q,即刻 @曼祺_火柴Q

☆《晚点聊 LateTalk》建立「 播客听友群」啦!☆

欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流,第一时间收听新节目。

这里有更多互动,更多话题讨论。欢迎贡献选题 & 推荐嘉宾。

请先添加「晚点」小助手的微信号,备注:“晚点聊”,我们邀请您入群。

关注公众号《晚点 LatePost》和《晚点对话》,阅读更多商业、科技文章: