RSEA: 让LLM Agent自我进化而不遗忘

Olivia Hughes

2026年7月1日

original

RSEA 是一种递归自我进化方法，让LLM Agent通过自然语言状态迭代改进，并采用保留集选择防止性能退化。在ALFWorld、GAIA等多个基准上，RSEA稳定优于ReAct、Reflexion等基线，为Agent自动化优化提供了新思路。

LLM Agent的进化通常有两种路径：一是通过权重更新进行微调，二是通过自然语言制品（如提示词、工作流、反射机制）来优化固定策略。后者近年来特别火，因为不用动模型权重，成本低，见效快。但问题也明显——很多方法在一个基准上表现亮眼，换个场景就拉胯，甚至倒退。

最近一篇来自arXiv的论文《Recursive Self-Evolving Agents via Held-Out Selection》试图解决这个痛点。作者提出RSEA（Recursive Self-Evolving Agent），一种让Agent递归自我进化的框架。核心创新在于：Agent携带一个三层自然语言状态——策略层（imperative strategy）、技能层（reusable skills）和流程层（procedural playbook），每一代都根据自身轨迹重写这三个层，但只有通过一个保留集（held-out split）检验的候选才会被采纳，确保不出现性能回退。

为什么“保持不退化”很重要？

之前很多进化式方法（比如Reflexion、AWM）会针对特定任务做贪婪优化，但容易过拟合到当前任务分布，一旦任务稍有变化，Agent反而变笨了。RSEA引入的严格keep-better门控，相当于在进化中加了一道保险：只有新版本在所有保留任务上都不输给旧版本时，才允许替换。这个方法听起来简单，但在实际操作中很有效——它强制了泛化性。

实验横跨四个代表性基准：ALFWorld（具身推理）、GAIA（通用AI助手）、τ-bench（工具使用）和WebShop（网页交互），并对比了ReAct、Reflexion、GEPA、AWM、ACE和Dynamic Cheatsheet等六个基线。所有方法都在同一个本地骨干模型上运行，保证公平。结果显示，RSEA在大部分基准上持续优于基线，而且进化过程稳定，没有出现性能跳水。

对开发者意味着什么？

如果你在构建基于LLM的Agent系统（比如客服、自动化工作流），RSEA提供了一个非常实用的思路：不依赖外部反馈或人工标注，Agent可以自动迭代自己的“操作手册”。而且因为保留了传统prompt engineering的可解释性，你仍然可以查看和修改那个三层状态。

实际影响：对于需要长期运行、持续优化的Agent场景，RSEA能减少人工维护成本，同时提升鲁棒性。尤其适合那些任务多样、数据分布会变化的场景。
实用建议：如果你的Agent当前使用Reflexion或简单prompt调优，可以尝试引入类似保留集验证机制，防止退化。同时注意保留集的设计要能代表未来任务分布，否则门控可能失效。

当然，RSEA并非银弹。论文作者也指出，保留集需要额外标注或采样，且三层状态的设计对复杂任务可能不够灵活。但整体上看，它为“让Agent自己写说明书并迭代”提供了一条可落地的路径。

对于关注LLM Agent前沿的从业者，这篇论文值得一读。它的核心贡献不是性能刷榜，而是提出并验证了一个简单却关键的原则：自动化进化必须包含退化防护。这或许会成为未来Agent自我改进的基础设施之一。

RSEA递归自我进化LLM Agent保留集选择性能退化自然语言状态ALFWorldGAIAτ-benchWebShop

暂无评论

成为第一个评论的人

探索更多

相似工具

Cursor

一款基于 VS Code 二次开发的智能代码编辑器，以“原生内置 AI”为核心卖点。它不依赖插件，而是将 AI 深度植入编辑器底层，能够理解整个项目的上下文代码库，支持无缝迁移 VS Code 的所有配置和插件。

Google Antigravity

Antigravity 支持多模型，包括 Gemini 3 Pro、Claude Sonnet 4.5、GPT-OSS，开发者可以在同一环境中选择最适合任务的模型。

Codex

OpenAI Codex 是由 OpenAI 开发的 AI 编程模型和助手，可将自然语言指令翻译成对应的源代码，为开发者提供智能补全、代码生成等功能。它最初于 2021 年作为 OpenAI API 的代码模型推出，曾为 GitHub Copilot 提供核心支持。随着 OpenAI 技术的迭代，Codex 在 2025 年以“AI 编程智能体”的全新姿态回归，能够理解复杂需求并自动编写、调试代码，显著提升开发效率和软件交付速度。

Kiro

Kiro 是由 AWS 推出的 AI 编程 IDE，采用规范驱动的开发模式，将自然语言需求转化为明确的规格文档和任务，再由内置 AI 代理生成代码并调试优化，全流程辅助大型项目开发。

Trae

Trae（官网 trae.ai）是由字节跳动（ByteDance）推出的一款 AI 原生集成开发环境（IDE）。它不是简单地作为一个编程助手，而是一个「协作伙伴」，通过深度整合大型语言模型（LLM），帮助开发者从需求、构建代码，到调试和部署，实现更智能化、自动化的软件开发。

Claude

Claude 是由美国人工智能公司 Anthropic 打造的智能语言交互平台，它融合了深度文本理解、信息整理、代码辅助和任务分析等能力，能在聊天对话之外应对更复杂的问题，例如长文摘要、图像解析、逻辑推理及编程协助等。相比一些单一问答机器人，Claude 更像一个具备推理逻辑、可扩展功能的智能工具。