Listen

Description

本期播客将深入探讨 Ming-Omni,一个统一的多模态模型,它能够处理图像、文本、音频和视频,并在语音和图像生成方面表现出色。我们将讨论其核心架构、训练方法、数据构建以及在各项基准测试中的卓越表现。