2026-05-27 · 特辑｜稀疏注意力价格战：中国开源模型如何把推理成本压到每百万 token 一美元

Description

三十分钟的技术入门特辑。从 Transformer 的注意力机制讲起，一步步走向本周技术圈最重要、但被主流财经媒体完全忽略的事件——DeepSeek V4-Pro 把 75% 降价永久化、小米 MiMo V2.5 降价 99%、MiniMax M3 预告 prefill 提速 9.7×、decoding 提速 15.6×。讲清楚什么是 KV 缓存、为什么它是推理成本的真正瓶颈、Compressed Sparse Attention 和 Heavily Compressed Attention 怎么把 KV 缓存压到上一代的 10%、滑动窗口加 SGLang HiCache 怎么把数据传输降到 1/7、MiniMax 的两阶段索引方案为什么先退回 full attention 又切回稀疏。然后讲架构性降价和促销性降价的本质区别、$1/M output token 这条线对 OpenAI/Anthropic/Google 意味着什么、为什么美国芯片出口管制反而把中国 AI 公司逼成了效率工程的世界冠军、稀疏注意力之后是什么（Mamba 混合架构、Cerebras/Groq/Rubin 专用硬件、1-bit/Ternary 压缩）。三个 takeaway。

2026-05-27 · 特辑｜稀疏注意力价格战：中国开源模型如何把推理成本压到每百万 token 一美元

Listen

Description

Want to check another podcast?