自主智能体在复杂环境中决策时,常面临动作空间巨大且状态依赖的问题。现有优化系统大多处理孤立目标,缺少对历史尝试的结构化记忆。Arbor 论文提出一个有趣的思路:把树搜索直接做进多智能体系统的认知层,让智能体在探索时有了一张“地图”。
搜索树作为共享工作记忆
Arbor 的核心是一个显式的搜索树,其中每个节点代表一个假设(hypothesis),边代表从父假设到子假设的推理步骤。树随着每一次测量(measurement)动态扩展,所有智能体共享这棵树作为工作记忆。与传统强化学习不同,Arbor 不依赖奖励函数更新策略,而是将失败视为诊断信号——失败会重塑后续探索的方向。这种设计让系统能自动从错误中学习,而不需要人工标注。
举个例子,在优化 LLM 推理栈时,涉及应用层、框架、编译器、内核和硬件等多个环节。历史上这需要跨团队协作,而 Arbor 用一个 Orchestrator 智能体驱动优化,将任务委派给各个领域的 Specialist 智能体,同时有一个 Critic 智能体持续评估进展。所有智能体都在同一棵搜索树上读写,协作效率很高。
验证场景:全栈 LLM 推理优化
作者将 Arbor 应用于全栈 LLM 推理优化这一极具挑战的任务。优化目标是在给定硬件和模型下,最小化端到端推理延迟。系统需要同时调整 batch size、kernel 选择、内存分配等跨层参数。Arbor 通过树搜索维护了一个假设空间,例如“增大 batch size 可能提升吞吐,但会增加延迟”,并将每次测量的结果作为节点评分,引导后续探索。
论文的实验显示,Arbor 在多个 LLM 模型上找到了比人工调优或传统自动调优更好的延迟-吞吐折中点。关键提升在于它能利用失败信息——比如某个参数组合导致 OOM,系统不仅记录失败,还会分析失败原因(如内存分配策略),从而避免在类似区域重复尝试。
务实的设计哲学
Arbor 的设计有几个值得注意的点:
- 状态感知:搜索树保留了动作空间的依赖关系,不像许多黑箱优化器那样假设无状态。
- 失败即信号:不把失败当作噪声,而是当作结构化信息用来修剪搜索空间。
- 可扩展性:新智能体可以随时加入树,读取当前最优假设并贡献新分支。
当然,Arbor 并非银弹。树的大小会随搜索深度指数增长,需要谨慎设计剪枝策略。此外,Critic 智能体的质量直接影响探索方向,如果其评估有偏,整个搜索可能偏移。目前论文主要在模拟和特定 LLM 场景上测试,泛化到其他领域仍需验证。
对开发者意味着什么
如果你正在构建复杂的自动优化系统(例如数据库调优、芯片设计空间搜索),Arbor 的框架值得参考。它将多智能体协作和结构化记忆结合起来,提供了一种比纯强化学习更透明的替代方案。不过,要真正落地,还需要解决搜索规模控制和 critic 训练的难题。对于 AI 研究者来说,这篇论文展示了树搜索作为认知层的潜力,或许能启发更多将经典算法与新兴智能体结合的尝试。











评论
暂无评论
成为第一个评论的人