Listen

Description

Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。

今天的主题是:

On the Fundamental Limits of LLMs at Scale

Summary

大语言模型(Large Language Models,LLMs)从规模化发展中获得了巨大的性能提升,但这些收益最终受到五个根本性限制的约束:(1)幻觉问题,(2)上下文压缩,(3)推理能力退化,(4)检索脆弱性,以及(5)多模态失配。尽管现有综述对这些现象进行了经验性描述,但尚缺乏将其与计算、信息与学习的基础极限相联系的严格理论综合。

本文通过提出一个统一的、以证明为支撑的理论框架,弥补了这一空白,系统刻画了 LLM 规模化所面临的内在理论上限。首先,可计算性与不可计算性理论表明,误差的存在不可消除:对于任何可枚举的模型族,基于对角化原理,总存在某些输入使得至少一个模型必然失败;而不可判定查询(如停机问题类型的任务)则会为所有可计算预测器诱导出无限的失败输入集合。

其次,信息论与统计学约束限定了即便在可判定任务上所能达到的最高精度;有限的描述长度不可避免地引入压缩误差,而对长尾事实性知识的学习则需要极其高昂的样本复杂度。再次,几何与计算层面的效应会使长上下文在实际表示中被压缩到远低于其名义长度的规模,其原因包括位置相关训练不足、编码衰减以及 softmax 拥挤效应。

此外,我们进一步表明,基于似然的训练目标更倾向于模式补全而非真正的推理;在 token 预算受限的条件下,检索过程容易受到语义漂移与耦合噪声的影响;而多模态规模化则继承了跨模态对齐较为浅层的问题。全文通过将形式化定理与经验证据相结合,系统勾勒出规模化在哪些方面能够持续带来收益、在哪些方面趋于饱和、以及在哪些方面无法再取得进展,并在此基础上提出了若干切实可行的缓解路径,例如受限预言机检索(bounded-oracle retrieval)、位置感知训练课程(positional curricula),以及稀疏或层级化注意力机制。

原文链接:https://arxiv.org/abs/2511.12869