自主智慧體在複雜環境中決策時,常面臨動作空間巨大且狀態依賴的問題。現有優化系統大多處理孤立目標,缺少對歷史嘗試的結構化記憶。Arbor 論文提出一個有趣的思路:把樹搜尋直接做進多智慧體系統的認知層,讓智慧體在探索時有了一張「地圖」。
搜尋樹作為共享工作記憶
Arbor 的核心是一個顯式的搜尋樹,其中每個節點代表一個假設(hypothesis),邊代表從父假設到子假設的推理步驟。樹隨著每一次測量(measurement)動態擴充套件,所有智慧體共享這棵樹作為工作記憶。與傳統強化學習不同,Arbor 不依賴獎勵函式更新策略,而是將失敗視為診斷訊號——失敗會重塑後續探索的方向。這種設計讓系統能自動從錯誤中學習,而不需要人工標註。
舉個例子,在優化 LLM 推理棧時,涉及應用層、框架、編譯器、核心和硬體等多個環節。歷史上這需要跨團隊協作,而 Arbor 用一個 Orchestrator 智慧體驅動優化,將任務委派給各個領域的 Specialist 智慧體,同時有一個 Critic 智慧體持續評估進展。所有智慧體都在同一棵搜尋樹上讀寫,協作效率很高。
驗證場景:全棧 LLM 推理優化
作者將 Arbor 應用於全棧 LLM 推理優化這一極具挑戰的任務。優化目標是在給定硬體和模型下,最小化端到端推理延遲。系統需要同時調整 batch size、kernel 選擇、記憶體分配等跨層引數。Arbor 通過樹搜尋維護了一個假設空間,例如「增大 batch size 可能提升吞吐,但會增加延遲」,並將每次測量的結果作為節點評分,引導後續探索。
論文的實驗顯示,Arbor 在多個 LLM 模型上找到了比人工調優或傳統自動調優更好的延遲-吞吐折中點。關鍵提升在於它能利用失敗資訊——比如某個引數組合導致 OOM,系統不僅記錄失敗,還會分析失敗原因(如記憶體分配策略),從而避免在類似區域重複嘗試。
務實的設計哲學
Arbor 的設計有幾個值得注意的點:
- 狀態感知:搜尋樹保留了動作空間的依賴關係,不像許多黑箱優化器那樣假設無狀態。
- 失敗即訊號:不把失敗當作噪聲,而是當作結構化資訊用來修剪搜尋空間。
- 可擴充套件性:新智慧體可以隨時加入樹,讀取當前最優假設並貢獻新分支。
當然,Arbor 並非銀彈。樹的大小會隨搜尋深度指數增長,需要謹慎設計剪枝策略。此外,Critic 智慧體的質量直接影響探索方向,如果其評估有偏,整個搜尋可能偏移。目前論文主要在模擬和特定 LLM 場景上測試,泛化到其他領域仍需驗證。
對開發者意味著什麼
如果你正在構建複雜的自動優化系統(例如資料庫調優、晶片設計空間搜尋),Arbor 的框架值得參考。它將多智慧體協作和結構化記憶結合起來,提供了一種比純強化學習更透明的替代方案。不過,要真正落地,還需要解決搜尋規模控制和 critic 訓練的難題。對於 AI 研究者來說,這篇論文展示了樹搜尋作為認知層的潛力,或許能啟發更多將經典演算法與新興智慧體結合的嘗試。











評論
暫無評論
成為第一個評論的人