本播客深入探讨了 Kimi 团队如何利用强化学习 (RL) 训练其最新的多模态大语言模型 Kimi k1.5。内容涵盖 RL 训练技术、多模态数据配方以及基础设施优化,重点关注长文本扩展和策略优化,以实现卓越的推理性能。