Kimi k1.5: 基于强化学习的大语言模型扩展

Listen

本播客深入探讨了 Kimi 团队如何利用强化学习 (RL) 训练其最新的多模态大语言模型 Kimi k1.5。内容涵盖 RL 训练技术、多模态数据配方以及基础设施优化，重点关注长文本扩展和策略优化，以实现卓越的推理性能。