Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。
Summary
工具调用已成为 AI 代理与现实世界交互并解决复杂任务的一项关键能力。尽管 Model Context Protocol(MCP)提供了一个强大的标准化工具集成框架,但在基准测试方面仍存在显著缺口:缺乏能够评估 AI 代理在真实、动态情境中利用多样 MCP 工具有效完成多步骤任务的能力衡量体系。
在这项工作中,我们提出了 LiveMCP-101,一个包含 101 个经过精心筛选的真实世界查询的基准测试集。这些查询经过迭代的 LLM 重写与人工审查,要求协调使用多种 MCP 工具,包括网页搜索、文件操作、数学推理和数据分析。此外,我们引入了一种新的评估方法:利用真实执行计划而非原始 API 输出,以更好地反映真实环境不断变化的特性。
实验表明,即使是最前沿的 LLM,其成功率也不足 60%,凸显了工具编排方面的重大挑战。详尽的消融实验与错误分析进一步揭示了不同的失败模式和 token 使用低效等问题,为提升现有模型的能力提供了具体方向。LiveMCP-101 为评估真实世界代理能力设定了严格标准,推动了朝向能够通过工具使用可靠执行复杂任务的自主 AI 系统的发展。
原文链接:https://arxiv.org/abs/2508.15760