InternVideo2.5：通过长文本和丰富上下文建模增强视频多模态大型语言模型

Listen

讨论 InternVideo2.5 如何通过长文本和丰富上下文建模来提升视频多模态大型语言模型（MLLM）的性能，包括其架构、训练方法以及在视频理解和特定视觉任务上的实验结果。