Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。
Memento: Fine-tuning LLM Agents without Fine-tuning LLMs
Summary
该文本介绍了一种名为 Memento 的新型学习范式,它旨在实现 自适应大型语言模型(LLM)代理的持续学习,而无需对底层 LLM 进行成本高昂的微调。 Memento 将代理形式化为 记忆增强型马尔可夫决策过程(M-MDP),利用情节记忆(episodic memory)存储过往经验,并采用神经案例选择策略(neural case-selection policy)来指导行动。这种方法利用 基于案例的推理(CBR),通过高效的内存读取和重写机制,在 Deep Research 等复杂任务中实现了 低成本的在线强化学习,并在 GAIA 等基准测试中取得了顶尖性能。总体而言,Memento 提供了一个无需梯度更新即可持续高效地获取新技能的 可扩展且高效的通用 LLM 代理开发途径。
原文链接:https://arxiv.org/abs/2508.16153