Listen

Description

这项研究介绍了一种名为自我蒸馏微调 (SDFT) 的新方法,旨在解决大型语言模型在学习新技能时容易产生灾难性遗忘的核心难题。与传统的监督微调 (SFT) 不同,SDFT 是一种在线学习机制,它利用模型自身的上下文学习能力,让模型在参考专家演示的同时充当自己的老师。通过最小化学生分布与教师分布之间的散度,该方法能有效将新知识整合进模型参数,同时保持原有的通用能力。实验结果表明,SDFT 在技能获取、知识更新以及多任务连续学习场景下均显著优于现有技术。此外,该方法在处理推理任务和大规模模型时表现出更强的优越性,为构建能够持续进化的基础模型提供了切实可行的路径。