Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。
Summary
大语言模型(LLM)的查询目前主要由集中式云基础设施上的前沿模型来处理。需求的快速增长正在给这一范式带来压力,云服务提供商也难以按同样的速度扩展其基础设施。两项进展使我们能够重新思考这一范式:其一,小型语言模型(≤200 亿活跃参数)如今在许多任务上已能达到与前沿模型相当的性能;其二,本地加速器(如 Apple M4 Max)能够以交互式延迟运行这些模型。这引出了一个问题:本地推理是否能够可行地将需求从集中式基础设施中重新分配出来?要回答这一问题,需要衡量本地语言模型是否能够准确回答真实世界的查询,以及它们在受功耗约束的设备(即笔记本电脑)上是否具备足够的效率以实现实际应用。
我们提出“每瓦智能”(Intelligence Per Watt,IPW)这一指标,即任务准确率除以单位功耗,用于评估不同模型–加速器组合下本地推理的能力与效率。我们开展了一项大规模实证研究,覆盖 20 余个最先进的本地语言模型、8 种加速器,以及一组具有代表性的 LLM 流量:100 万条真实世界的单轮聊天与推理查询。对于每一条查询,我们测量其准确率、能耗、延迟和功率。
分析结果揭示了三点发现。第一,本地语言模型能够准确回答 88.7% 的单轮聊天与推理查询,且准确率因应用领域而异。第二,在 2023–2025 年间,IPW 提升了 5.3 倍,本地查询覆盖率从 23.2% 提高到 71.3%。第三,在运行相同模型的情况下,本地加速器的 IPW 至少比云端加速器低 1.4 倍,显示出显著的优化空间。
这些发现表明,本地推理能够在实质上将需求从集中式基础设施中重新分配出来,而 IPW 是衡量和跟踪这一转变的关键指标。我们同时发布了 IPW 性能分析工具,用于系统化的“每瓦智能”基准测试。
原文链接:https://arxiv.org/abs/2511.07885