Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。
DeepSeek-V3.2-Exp: Boosting Long-Context Efficiency with DeepSeek Sparse Attention
Summary
我们介绍 DeepSeek-V3.2,这一模型在高计算效率与卓越的推理及智能体性能之间实现了协调统一。DeepSeek-V3.2 的关键技术突破包括:
(1) DeepSeek 稀疏注意力机制(DSA):我们提出 DSA,这是一种高效的注意力机制,在长上下文场景中显著降低计算复杂度,同时保持模型性能。
(2) 可扩展强化学习框架:通过实施稳健的强化学习协议并扩展后训练(post-training)计算规模,DeepSeek-V3.2 的表现可与 GPT-5 比肩。值得注意的是,我们的高计算版本 DeepSeek-V3.2-Speciale 超越了 GPT-5,并展现出可与 Gemini-3.0-Pro 比拟的推理能力,在 2025 年国际数学奥林匹克竞赛(IMO)和国际信息学奥林匹克竞赛(IOI)中均达到了金牌水平。
(3) 大规模智能体任务合成管线:为将推理能力融入工具使用场景,我们构建了一种全新的合成管线,可系统化、大规模生成训练数据。该方法支持可扩展的智能体后训练,使模型在复杂互动环境中的泛化能力和指令跟随稳健性均获得显著提升。
原文链接:https://arxiv.org/abs/2512.02556