RSEA: 讓LLM Agent自我進化而不遺忘

RSEA: 讓LLM Agent自我進化而不遺忘

Olivia Hughes
53
original

RSEA 是一種遞迴自我進化方法,讓LLM Agent通過自然語言狀態迭代改進,並採用保留集選擇防止效能退化。在ALFWorld、GAIA等多個基準上,RSEA穩定優於ReAct、Reflexion等基線,為Agent自動化優化提供了新思路。

LLM Agent的進化通常有兩種路徑:一是通過權重更新進行微調,二是通過自然語言製品(如提示詞、工作流、反射機制)來優化固定策略。後者近年來特別火,因為不用動模型權重,成本低,見效快。但問題也明顯——很多方法在一個基準上表現亮眼,換個場景就拉胯,甚至倒退。

最近一篇來自arXiv的論文《Recursive Self-Evolving Agents via Held-Out Selection》試圖解決這個痛點。作者提出RSEA(Recursive Self-Evolving Agent),一種讓Agent遞迴自我進化的框架。核心創新在於:Agent攜帶一個三層自然語言狀態——策略層(imperative strategy)、技能層(reusable skills)和流程層(procedural playbook),每一代都根據自身軌跡重寫這三個層,但只有通過一個保留集(held-out split)檢驗的候選才會被採納,確保不出現效能回退。

為什麼「保持不退化」很重要?

之前很多進化式方法(比如Reflexion、AWM)會針對特定任務做貪婪優化,但容易過擬合到當前任務分佈,一旦任務稍有變化,Agent反而變笨了。RSEA引入的嚴格keep-better門控,相當於在進化中加了一道保險:只有新版本在所有保留任務上都不輸給舊版本時,才允許替換。這個方法聽起來簡單,但在實際操作中很有效——它強制了泛化性。

實驗橫跨四個代表性基準:ALFWorld(具身推理)、GAIA(通用AI助手)、τ-bench(工具使用)和WebShop(網頁互動),並對比了ReAct、Reflexion、GEPA、AWM、ACE和Dynamic Cheatsheet等六個基線。所有方法都在同一個本地骨幹模型上執行,保證公平。結果顯示,RSEA在大部分基準上持續優於基線,而且進化過程穩定,沒有出現效能跳水。

對開發者意味著什麼?

如果你在構建基於LLM的Agent系統(比如客服、自動化工作流),RSEA提供了一個非常實用的思路:不依賴外部反饋或人工標註,Agent可以自動迭代自己的「操作手冊」。而且因為保留了傳統prompt engineering的可解釋性,你仍然可以檢視和修改那個三層狀態。

  • 實際影響:對於需要長期執行、持續優化的Agent場景,RSEA能減少人工維護成本,同時提升魯棒性。尤其適合那些任務多樣、資料分佈會變化的場景。
  • 實用建議:如果你的Agent當前使用Reflexion或簡單prompt調優,可以嘗試引入類似保留集驗證機制,防止退化。同時注意保留集的設計要能代表未來任務分佈,否則門控可能失效。

當然,RSEA並非銀彈。論文作者也指出,保留集需要額外標註或取樣,且三層狀態的設計對複雜任務可能不夠靈活。但整體上看,它為「讓Agent自己寫說明書並迭代」提供了一條可落地的路徑。

對於關注LLM Agent前沿的從業者,這篇論文值得一讀。它的核心貢獻不是效能刷榜,而是提出並驗證了一個簡單卻關鍵的原則:自動化進化必須包含退化防護。這或許會成為未來Agent自我改進的基礎設施之一。

RSEA遞迴自我進化LLM Agent保留集選擇效能退化自然語言狀態ALFWorldGAIAτ-benchWebShop

分享

評論

0
0/500 字元

暫無評論

成為第一個評論的人

探索更多

相似工具

Cursor

Cursor

一款基於 VS Code 二次開發的智慧程式碼編輯器,以「原生內建 AI」為核心賣點。它不依賴外掛,而是將 AI 深度植入編輯器底層,能夠理解整個專案的上下文程式碼庫,支援無縫遷移 VS Code 的所有配置和外掛。

Google Antigravity

Google Antigravity

Antigravity 支援多模型,包括 Gemini 3 Pro、Claude Sonnet 4.5、GPT-OSS,開發者可以在同一環境中選擇最適合任務的模型。

Codex

Codex

OpenAI Codex 是由 OpenAI 開發的 AI 程式設計模型和助手,可將自然語言指令翻譯成對應的原始碼,為開發者提供智慧補全、程式碼生成等功能。它最初於 2021 年作為 OpenAI API 的程式碼模型推出,曾為 GitHub Copilot 提供核心支援。隨著 OpenAI 技術的迭代,Codex 在 2025 年以「AI 程式設計智慧體」的全新姿態迴歸,能夠理解複雜需求並自動編寫、除錯程式碼,顯著提升開發效率和軟體交付速度。

Kiro

Kiro

Kiro 是由 AWS 推出的 AI 程式設計 IDE,採用規範驅動的開發模式,將自然語言需求轉化為明確的規格文件和任務,再由內建 AI 代理生成程式碼並除錯優化,全流程輔助大型專案開發。

Trae

Trae

Trae(官網 trae.ai)是由 位元組跳動(ByteDance)推出的一款 AI 原生整合開發環境(IDE)。它不是簡單地作為一個程式設計助手,而是一個「協作夥伴」,通過深度整合大型語言模型(LLM),幫助開發者從需求、構建程式碼,到除錯和部署,實現更智慧化、自動化的軟體開發。

Claude

Claude

Claude 是由美國人工智慧公司 Anthropic 打造的智慧語言互動平臺,它融合了深度文字理解、資訊整理、程式碼輔助和任務分析等能力,能在聊天對話之外應對更復雜的問題,例如長文摘要、影象解析、邏輯推理及程式設計協助等。相比一些單一問答機器人,Claude 更像一個具備推理邏輯、可擴充套件功能的智慧工具。

開源專案

guidellm: 評估和優化 LLM 部署效能

guidellm 是一個開源工具,專為評估和優化大語言模型(LLM)在生產環境中的推理效能而設計。它支援壓力測試、延遲分析、吞吐量評估等,幫助開發者識別瓶頸並調整部署配置。基於 vLLM 團隊開發,適合需要精細化調優 LLM 服務的團隊。

jar-analyzer: JAR包GUI分析工具內建AI助手

Jar Analyzer 是一個開源的 JAR 包 GUI 分析工具,內建 AI 助手輔助分析,支援 JAR DIFF、方法呼叫關係搜尋、DFS 呼叫鏈分析、汙點分析、CFG 程序分析、JVM 棧幀分析等功能,適合 Java 開發者、安全研究人員進行程式碼審計和逆向分析。

Kiln: 一站式 AI 系統評估與優化平臺

Kiln 是一個開源 Python 工具,幫助開發者系統化地構建、評估和優化 AI 系統。它整合了 evals、RAG、智慧體、微調、合成資料生成、資料集管理和 MCP 協議支援,讓 AI 開發工作流更高效、更可控。適合需要深度調優 AI 效能的團隊和個人。

Kun: 將 AI Agent 工作區嵌入你的應用

Kun 是一個開源的 AI Agent 工作空間,內建程式碼與寫作模式,可無縫整合到你的應用程序中。基於 TypeScript 開發,為開發者提供可定製的智慧互動環境,支援多輪對話、工具呼叫和上下文管理。

terax-ai: 7MB終端優先AI開發工作臺

terax-ai 是一個輕量級(僅7MB)的終端優先AI原生開發工作臺,專為命令列愛好者設計。它整合了AI輔助能力,提供極快的啟動速度和極小的資源佔用,讓開發者在熟悉的終端環境中高效編碼、除錯和實驗。開源且易於安裝,適合追求簡潔與效率的開發者。

omlx: macOS 選單欄 LLM 推理伺服器

omlx 是一款專為 Apple Silicon 打造的輕量級 LLM 推理伺服器,通過 macOS 選單欄輕鬆管理。它支援連續批處理和 SSD 快取,能顯著提升推理吞吐量和響應速度。開源且易於上手,適合 Mac 開發者本地執行大型語言模型。