Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。
Summary
视频联合嵌入预测架构(Video Joint Embedding Predictive Architectures, V-JEPA)通过在潜在空间中预测被遮蔽的区域、并采用指数移动平均(EMA)更新的教师网络,来学习可泛化的现成视频表征。尽管 EMA 能避免表征坍缩,但它使得大规模模型选择更加复杂,并使教师与学生的架构耦合在一起。我们重新审视了掩码潜在预测,并证明冻结教师即可满足需求。
具体而言,我们:(i)使用简单的像素重建目标在 V-JEPA 的掩码机制下训练一个目标编码器作为教师;然后(ii)将该教师冻结,并训练一个学生来预测教师在被遮蔽区域的潜在表示。由此形成了一个两阶段、无正则化的训练方案,我们称之为 SALT(Static-teacher Asymmetric Latent Training,静态教师的非对称潜在训练)。
SALT 将优化过程解耦为像素重建(教师)与掩码潜在预测(学生),提升了透明性、效率与可扩展性,同时保持了冻结评估条件下的表征泛化能力。在实证层面,我们的学生模型在冻结骨干网络评估中,跨多个基准任务优于最新提出的 V-JEPA 2 编码器。同时,它们在计算上更为高效:在相同的预训练 FLOPs 下,我们的方法实现了更高的 probing 精度,其 scaling 曲线在精度-FLOPs 的帕累托前沿上全面优于 V-JEPA。
最后,我们发现学生模型的性能对教师质量具有显著鲁棒性:即便教师较小且次优,高性能的学生仍能涌现。这表明在计算预算分配上应大幅度偏向学生阶段。
这些结果说明,SALT 是一种相较于基于 EMA 的自蒸馏机制更为简单、可扩展且计算高效的视频表征学习替代方案。
原文链接:https://arxiv.org/abs/2509.24317