Listen

Description

Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。

今天的主题是:

End-to-End Test-Time Training for Long Context

Summary

我们将长上下文语言建模表述为一个持续学习(continual learning)问题,而非一个架构设计问题。在这一表述下,我们仅使用一种标准架构——带有滑动窗口注意力的 Transformer。然而,模型在测试阶段会通过对给定上下文进行下一词预测而持续学习,将其读取到的上下文压缩并写入模型权重中。

此外,我们在训练阶段通过元学习(meta-learning)来改进模型在测试时进行学习的初始化。总体而言,我们的方法是一种测试时训练(Test-Time Training,TTT)形式,并且在测试阶段(通过下一词预测)和训练阶段(通过元学习)均实现了端到端(End-to-End,E2E),这与以往的 TTT 方法形成对比。

我们开展了大量实验,重点分析其尺度扩展特性(scaling properties)。具体而言,对于使用 164B tokens 训练的 30 亿参数模型,我们的方法(TTT-E2E)在上下文长度上的扩展行为与全注意力 Transformer一致,而诸如 Mamba 2Gated DeltaNet 等方法则不具备这一特性。

同时,与 RNN 类似,TTT-E2E 的推理时延与上下文长度无关,在 128K 上下文长度下,其速度比全注意力机制快 2.7 倍。我们的代码已公开发布。

原文链接:https://arxiv.org/abs/2512.23675