RSEA: 让LLM Agent自我进化而不遗忘

RSEA: 让LLM Agent自我进化而不遗忘

Olivia Hughes
53
original

RSEA 是一种递归自我进化方法,让LLM Agent通过自然语言状态迭代改进,并采用保留集选择防止性能退化。在ALFWorld、GAIA等多个基准上,RSEA稳定优于ReAct、Reflexion等基线,为Agent自动化优化提供了新思路。

LLM Agent的进化通常有两种路径:一是通过权重更新进行微调,二是通过自然语言制品(如提示词、工作流、反射机制)来优化固定策略。后者近年来特别火,因为不用动模型权重,成本低,见效快。但问题也明显——很多方法在一个基准上表现亮眼,换个场景就拉胯,甚至倒退。

最近一篇来自arXiv的论文《Recursive Self-Evolving Agents via Held-Out Selection》试图解决这个痛点。作者提出RSEA(Recursive Self-Evolving Agent),一种让Agent递归自我进化的框架。核心创新在于:Agent携带一个三层自然语言状态——策略层(imperative strategy)、技能层(reusable skills)和流程层(procedural playbook),每一代都根据自身轨迹重写这三个层,但只有通过一个保留集(held-out split)检验的候选才会被采纳,确保不出现性能回退。

为什么“保持不退化”很重要?

之前很多进化式方法(比如Reflexion、AWM)会针对特定任务做贪婪优化,但容易过拟合到当前任务分布,一旦任务稍有变化,Agent反而变笨了。RSEA引入的严格keep-better门控,相当于在进化中加了一道保险:只有新版本在所有保留任务上都不输给旧版本时,才允许替换。这个方法听起来简单,但在实际操作中很有效——它强制了泛化性。

实验横跨四个代表性基准:ALFWorld(具身推理)、GAIA(通用AI助手)、τ-bench(工具使用)和WebShop(网页交互),并对比了ReAct、Reflexion、GEPA、AWM、ACE和Dynamic Cheatsheet等六个基线。所有方法都在同一个本地骨干模型上运行,保证公平。结果显示,RSEA在大部分基准上持续优于基线,而且进化过程稳定,没有出现性能跳水。

对开发者意味着什么?

如果你在构建基于LLM的Agent系统(比如客服、自动化工作流),RSEA提供了一个非常实用的思路:不依赖外部反馈或人工标注,Agent可以自动迭代自己的“操作手册”。而且因为保留了传统prompt engineering的可解释性,你仍然可以查看和修改那个三层状态。

  • 实际影响:对于需要长期运行、持续优化的Agent场景,RSEA能减少人工维护成本,同时提升鲁棒性。尤其适合那些任务多样、数据分布会变化的场景。
  • 实用建议:如果你的Agent当前使用Reflexion或简单prompt调优,可以尝试引入类似保留集验证机制,防止退化。同时注意保留集的设计要能代表未来任务分布,否则门控可能失效。

当然,RSEA并非银弹。论文作者也指出,保留集需要额外标注或采样,且三层状态的设计对复杂任务可能不够灵活。但整体上看,它为“让Agent自己写说明书并迭代”提供了一条可落地的路径。

对于关注LLM Agent前沿的从业者,这篇论文值得一读。它的核心贡献不是性能刷榜,而是提出并验证了一个简单却关键的原则:自动化进化必须包含退化防护。这或许会成为未来Agent自我改进的基础设施之一。

RSEA递归自我进化LLM Agent保留集选择性能退化自然语言状态ALFWorldGAIAτ-benchWebShop

分享

评论

0
0/500 字符

暂无评论

成为第一个评论的人

探索更多

相似工具

Cursor

Cursor

一款基于 VS Code 二次开发的智能代码编辑器,以“原生内置 AI”为核心卖点。它不依赖插件,而是将 AI 深度植入编辑器底层,能够理解整个项目的上下文代码库,支持无缝迁移 VS Code 的所有配置和插件。

Google Antigravity

Google Antigravity

Antigravity 支持多模型,包括 Gemini 3 Pro、Claude Sonnet 4.5、GPT-OSS,开发者可以在同一环境中选择最适合任务的模型。

Codex

Codex

OpenAI Codex 是由 OpenAI 开发的 AI 编程模型和助手,可将自然语言指令翻译成对应的源代码,为开发者提供智能补全、代码生成等功能。它最初于 2021 年作为 OpenAI API 的代码模型推出,曾为 GitHub Copilot 提供核心支持。随着 OpenAI 技术的迭代,Codex 在 2025 年以“AI 编程智能体”的全新姿态回归,能够理解复杂需求并自动编写、调试代码,显著提升开发效率和软件交付速度。

Kiro

Kiro

Kiro 是由 AWS 推出的 AI 编程 IDE,采用规范驱动的开发模式,将自然语言需求转化为明确的规格文档和任务,再由内置 AI 代理生成代码并调试优化,全流程辅助大型项目开发。

Trae

Trae

Trae(官网 trae.ai)是由 字节跳动(ByteDance)推出的一款 AI 原生集成开发环境(IDE)。它不是简单地作为一个编程助手,而是一个「协作伙伴」,通过深度整合大型语言模型(LLM),帮助开发者从需求、构建代码,到调试和部署,实现更智能化、自动化的软件开发。

Claude

Claude

Claude 是由美国人工智能公司 Anthropic 打造的智能语言交互平台,它融合了深度文本理解、信息整理、代码辅助和任务分析等能力,能在聊天对话之外应对更复杂的问题,例如长文摘要、图像解析、逻辑推理及编程协助等。相比一些单一问答机器人,Claude 更像一个具备推理逻辑、可扩展功能的智能工具。

开源项目

guidellm: 评估和优化 LLM 部署性能

guidellm 是一个开源工具,专为评估和优化大语言模型(LLM)在生产环境中的推理性能而设计。它支持压力测试、延迟分析、吞吐量评估等,帮助开发者识别瓶颈并调整部署配置。基于 vLLM 团队开发,适合需要精细化调优 LLM 服务的团队。

jar-analyzer: JAR包GUI分析工具内置AI助手

Jar Analyzer 是一个开源的 JAR 包 GUI 分析工具,内置 AI 助手辅助分析,支持 JAR DIFF、方法调用关系搜索、DFS 调用链分析、污点分析、CFG 程序分析、JVM 栈帧分析等功能,适合 Java 开发者、安全研究人员进行代码审计和逆向分析。

Kiln: 一站式 AI 系统评估与优化平台

Kiln 是一个开源 Python 工具,帮助开发者系统化地构建、评估和优化 AI 系统。它集成了 evals、RAG、智能体、微调、合成数据生成、数据集管理和 MCP 协议支持,让 AI 开发工作流更高效、更可控。适合需要深度调优 AI 性能的团队和个人。

Kun: 将 AI Agent 工作区嵌入你的应用

Kun 是一个开源的 AI Agent 工作空间,内置代码与写作模式,可无缝集成到你的应用程序中。基于 TypeScript 开发,为开发者提供可定制的智能交互环境,支持多轮对话、工具调用和上下文管理。

terax-ai: 7MB终端优先AI开发工作台

terax-ai 是一个轻量级(仅7MB)的终端优先AI原生开发工作台,专为命令行爱好者设计。它集成了AI辅助能力,提供极快的启动速度和极小的资源占用,让开发者在熟悉的终端环境中高效编码、调试和实验。开源且易于安装,适合追求简洁与效率的开发者。

omlx: macOS 菜单栏 LLM 推理服务器

omlx 是一款专为 Apple Silicon 打造的轻量级 LLM 推理服务器,通过 macOS 菜单栏轻松管理。它支持连续批处理和 SSD 缓存,能显著提升推理吞吐量和响应速度。开源且易于上手,适合 Mac 开发者本地运行大型语言模型。