RSEA: 讓LLM Agent自我進化而不遺忘

Olivia Hughes

2026年7月1日

original

RSEA 是一種遞迴自我進化方法，讓LLM Agent通過自然語言狀態迭代改進，並採用保留集選擇防止效能退化。在ALFWorld、GAIA等多個基準上，RSEA穩定優於ReAct、Reflexion等基線，為Agent自動化優化提供了新思路。

LLM Agent的進化通常有兩種路徑：一是通過權重更新進行微調，二是通過自然語言製品（如提示詞、工作流、反射機制）來優化固定策略。後者近年來特別火，因為不用動模型權重，成本低，見效快。但問題也明顯——很多方法在一個基準上表現亮眼，換個場景就拉胯，甚至倒退。

最近一篇來自arXiv的論文《Recursive Self-Evolving Agents via Held-Out Selection》試圖解決這個痛點。作者提出RSEA（Recursive Self-Evolving Agent），一種讓Agent遞迴自我進化的框架。核心創新在於：Agent攜帶一個三層自然語言狀態——策略層（imperative strategy）、技能層（reusable skills）和流程層（procedural playbook），每一代都根據自身軌跡重寫這三個層，但只有通過一個保留集（held-out split）檢驗的候選才會被採納，確保不出現效能回退。

為什麼「保持不退化」很重要？

之前很多進化式方法（比如Reflexion、AWM）會針對特定任務做貪婪優化，但容易過擬合到當前任務分佈，一旦任務稍有變化，Agent反而變笨了。RSEA引入的嚴格keep-better門控，相當於在進化中加了一道保險：只有新版本在所有保留任務上都不輸給舊版本時，才允許替換。這個方法聽起來簡單，但在實際操作中很有效——它強制了泛化性。

實驗橫跨四個代表性基準：ALFWorld（具身推理）、GAIA（通用AI助手）、τ-bench（工具使用）和WebShop（網頁互動），並對比了ReAct、Reflexion、GEPA、AWM、ACE和Dynamic Cheatsheet等六個基線。所有方法都在同一個本地骨幹模型上執行，保證公平。結果顯示，RSEA在大部分基準上持續優於基線，而且進化過程穩定，沒有出現效能跳水。

對開發者意味著什麼？

如果你在構建基於LLM的Agent系統（比如客服、自動化工作流），RSEA提供了一個非常實用的思路：不依賴外部反饋或人工標註，Agent可以自動迭代自己的「操作手冊」。而且因為保留了傳統prompt engineering的可解釋性，你仍然可以檢視和修改那個三層狀態。

實際影響：對於需要長期執行、持續優化的Agent場景，RSEA能減少人工維護成本，同時提升魯棒性。尤其適合那些任務多樣、資料分佈會變化的場景。
實用建議：如果你的Agent當前使用Reflexion或簡單prompt調優，可以嘗試引入類似保留集驗證機制，防止退化。同時注意保留集的設計要能代表未來任務分佈，否則門控可能失效。

當然，RSEA並非銀彈。論文作者也指出，保留集需要額外標註或取樣，且三層狀態的設計對複雜任務可能不夠靈活。但整體上看，它為「讓Agent自己寫說明書並迭代」提供了一條可落地的路徑。

對於關注LLM Agent前沿的從業者，這篇論文值得一讀。它的核心貢獻不是效能刷榜，而是提出並驗證了一個簡單卻關鍵的原則：自動化進化必須包含退化防護。這或許會成為未來Agent自我改進的基礎設施之一。

RSEA遞迴自我進化LLM Agent保留集選擇效能退化自然語言狀態ALFWorldGAIAτ-benchWebShop

探索更多

相似工具

Cursor

一款基於 VS Code 二次開發的智慧程式碼編輯器，以「原生內建 AI」為核心賣點。它不依賴外掛，而是將 AI 深度植入編輯器底層，能夠理解整個專案的上下文程式碼庫，支援無縫遷移 VS Code 的所有配置和外掛。

Google Antigravity

Antigravity 支援多模型，包括 Gemini 3 Pro、Claude Sonnet 4.5、GPT-OSS，開發者可以在同一環境中選擇最適合任務的模型。

Codex

OpenAI Codex 是由 OpenAI 開發的 AI 程式設計模型和助手，可將自然語言指令翻譯成對應的原始碼，為開發者提供智慧補全、程式碼生成等功能。它最初於 2021 年作為 OpenAI API 的程式碼模型推出，曾為 GitHub Copilot 提供核心支援。隨著 OpenAI 技術的迭代，Codex 在 2025 年以「AI 程式設計智慧體」的全新姿態迴歸，能夠理解複雜需求並自動編寫、除錯程式碼，顯著提升開發效率和軟體交付速度。

Kiro

Kiro 是由 AWS 推出的 AI 程式設計 IDE，採用規範驅動的開發模式，將自然語言需求轉化為明確的規格文件和任務，再由內建 AI 代理生成程式碼並除錯優化，全流程輔助大型專案開發。

Trae

Trae（官網 trae.ai）是由位元組跳動（ByteDance）推出的一款 AI 原生整合開發環境（IDE）。它不是簡單地作為一個程式設計助手，而是一個「協作夥伴」，通過深度整合大型語言模型（LLM），幫助開發者從需求、構建程式碼，到除錯和部署，實現更智慧化、自動化的軟體開發。

Claude

Claude 是由美國人工智慧公司 Anthropic 打造的智慧語言互動平臺，它融合了深度文字理解、資訊整理、程式碼輔助和任務分析等能力，能在聊天對話之外應對更復雜的問題，例如長文摘要、影象解析、邏輯推理及程式設計協助等。相比一些單一問答機器人，Claude 更像一個具備推理邏輯、可擴充套件功能的智慧工具。