Gemini Embedding 2 是一款由 Google DeepMind 开发的原生多模态嵌入模型,旨在将文本、图像、音频和视频等不同类型的数据映射到统一的语义向量空间。该模型通过大规模对比学习和多阶段训练,能够处理单一模态或跨模态的复杂搜索任务,甚至支持不同模态相互交织的混合输入。研究结果显示,其在 MTEB 等关键性能基准测试中达到了领先水平,并在代码检索和多语言处理方面表现卓越。除了通用任务,它在天文学、生物科学和艺术等专业领域也展现出强大的零样本泛化能力。这种全能的表征能力使其成为驱动下一代**智能体、语义搜索和检索增强生成(RAG)**系统的核心技术基础设施。