Listen

Description

Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。

今天的主题是:

Is In-Context Learning Learning?

Summary

In-context learning(ICL) 使某些自回归模型能够通过下一 token 预测来解决任务,而无需进一步训练。这导致了一个常见论断:这些模型能够在提示中仅通过少量示例(few-shot exemplars)就解决(学习)未见过的任务。然而,推理能力并不必然意味着学习,因为 ICL 并不会显式编码给定的观测数据;相反,模型依赖其已有的先验知识以及(若存在)提示中的示例。

我们提出,从数学角度来看,ICL 的确构成一种学习方式,但其完整特征化仍需依赖实证研究。为此,我们开展了大规模 ICL 分析,通过消除或控制记忆效应、预训练影响、分布偏移、提示风格和措辞方式等因素进行系统实验。

我们发现,ICL 是一种有效的学习范式,但在学习和泛化到未见任务方面具有明显局限性。值得注意的是,当示例数量趋于增多时,模型的准确率对示例分布、模型类型、提示风格以及输入的语言特征变得不敏感。相反,模型会从提示中的规律性中推断模式,这导致显著的分布敏感性,特别是在 chain-of-thought 等提示风格中尤为明显。

鉴于模型在形式上类似的任务中表现出截然不同的准确率,我们得出结论:自回归模型的临时式(ad-hoc)编码机制并不稳健,并暗示其通用泛化能力有限。

原文链接:https://arxiv.org/abs/2509.10414