Listen

Description

Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。

今天的主题是:

SAM 3: Segment Anything with Concepts

Summary

我们提出了 Segment Anything Model(SAM)3,这是一种统一模型,能够基于概念提示在图像和视频中进行目标检测、分割与跟踪。我们将概念提示定义为:简短的名词短语(例如“黄色校车”)、图像示例,或二者的组合。可提示概念分割(Promptable Concept Segmentation,PCS)以此类提示为输入,输出所有匹配目标实例的分割掩码及其唯一身份标识。

为推动 PCS 的发展,我们构建了一个可扩展的数据引擎,生成了一个高质量数据集,涵盖图像和视频中的 400 万个独特概念标签,并包含具有挑战性的负样本。我们的模型由图像级检测器和基于记忆的视频跟踪器组成,二者共享同一个主干网络。通过引入存在性头(presence head),实现了识别与定位的解耦,从而提升了检测精度。

在图像和视频 PCS 任务上,SAM 3 的准确率均达到现有系统的两倍,同时也在视觉分割任务上显著提升了以往 SAM 的能力。我们对 SAM 3 以及全新的 Segment Anything with Concepts(SA-Co) 基准数据集进行了开源,用于可提示概念分割研究。

原文链接:https://arxiv.org/abs/2511.16719