Listen

Description

🎙️ 「油管解读」系列

解读油管上的深度科技内容,用中文讲述AI行业的核心动态,带上游戏行业从业者的视角。

📌 本期内容

2026年1月1日,DeepSeek发布了一篇新论文,名字叫mHC,流形约束超连接。梁文锋本人出现在19位作者名单中。

这篇论文动的是Transformer架构里十年没人敢动的地基——残差连接。这块砖是2015年何恺明提出来的,此后GPT、Claude、Llama、DeepSeek,几乎所有主流大模型都站在这块砖上面。

🔥 核心内容

  1. 技术背景:从何恺明到字节再到DeepSeek2015年何恺明提出残差连接,解决了深层网络的梯度消失问题
    2024年字节提出超连接,性能提升但训练不稳定
    DeepSeek的mHC解决了超连接的稳定性问题
  2. 问题出在哪超连接打破了"恒等映射"属性
    信号每过一层可能被放大,累积后呈指数级增长
    27B模型中信号最大放大倍数接近3000
  3. DeepSeek的解法把权重矩阵约束在"双随机矩阵"空间
    信号通过后相当于加权平均,不会被无限放大
    只带来6.7%的额外训练时间开销
  4. 工程能力才是门槛手写底层CUDA内核代码
    算子融合、选择性重计算、通信优化
    把理论方案变成可落地的工程实现

💡 对游戏行业/项目管理的启示

📎 原片信息

基于DeepSeek论文《mHC: Manifold-Constrained Hyper-Connections》(arXiv:2512.24880)及相关技术解读

🔗 延伸内容