智能体搜索(Agentic Search)正在成为大模型落地的关键场景——模型不再是单次生成答案,而是通过多轮检索、推理和工具调用逐步逼近正确结果。但一个棘手的问题是:如何高效地利用测试时的计算资源?
传统思路分两种:增加深度(让每个搜索路径更长、更细致)或增加广度(并行运行多条搜索路径)。后者看似直观——多跑几路不就更容易找到答案?但一篇来自 arXiv 的新论文(2606.17209)指出,标准并行采样存在严重的查询冗余:模型在第一条路径中提出的第一个问题,往往与其他路径的第一个问题高度相似。结果就是,不同路径检索到的文档重叠严重,后续推理建立在这些重叠信息上,收益自然递减。
冗余的根源:首轮查询的同质化
研究团队对开源模型进行了系统分析。他们发现,当模型被要求为同一个问题生成多个独立搜索查询时,超过 60% 的查询在语义上高度重合。例如,面对“2023 年诺贝尔物理学奖得主有何共同贡献?”这类多跳问题,多条并行路径可能都先搜索“2023 年诺贝尔物理学奖”,而忽略了从不同角度切入的可能性——比如先查“获奖者的代表性论文”或“相关领域近年突破”。
这种同质化导致计算浪费:每一条路径都在重复爬相同的网络页面,而真正能连接线索的差异化信息却被遗漏。增加并行数(k)到一定规模后,准确率出现明显的平台期。
DivInit:一次调用,多样播种
核心方法名为 DivInit(Diverse Initialization),完全无需微调或额外训练。其做法非常务实:
- 首先,让模型一次生成 n 个候选查询(n > k,比如 n=20,k=5);
- 然后,从这 n 个候选中选出 k 个多样性最高的查询作为初始种子;
- 最后,将这 k 个查询分别作为并行搜索路径的起点,独立运行完整的多轮搜索流程。
选择多样性的算法很轻量:计算所有候选两两之间的语义距离,再运行一个最大化最小距离的贪心选择。整个过程只需几次向量点积,成本几乎可以忽略。
实验覆盖了 5 个开源模型和 8 个多跳问答基准,包括 MuSiQue、HotpotQA 等。平均来看,DivInit 在相同计算量下比标准并行采样高出 5-7 个百分点。尤其在需要连接多个知识片段的问题上,提升最为显著——因为多样化首轮查询天然更容易找回互补的证据。
实际影响:对谁有意义,下一步看什么
【实际影响】 对正在构建搜索增强型智能体(如 RAG 系统的进阶版)的团队来说,DivInit 提供了一条几乎零成本的改进路线。用户无需更换模型或调整训练流程,只需在首轮查询生成后加一个多样性筛选步骤,就能获得稳定的准确率提升。这意味着,在相同推理预算下,智能体可以回答更复杂的问题了。
不过论文也坦承局限:当模型本身生成能力弱时,候选池的多样性先天不足,DivInit 的效果会打折扣。此外,多样性的度量目前只依赖语义嵌入,可能忽略对特定任务重要的领域差异。
下一步值得关注的方向包括:将 DivInit 与动态深度扩展结合,以及设计更智能的多样性度量(例如基于任务目标的奖赏信号)。代码已在 GitHub 上开源,有条件的读者可以动手复现。
总之,这项研究提醒我们:有时候提升 not more, but smarter——不盲目增加并行数,而是让每一次并行都跑得更聪明。对于多轮搜索智能体来说,这个思路值得一试。











评论
暂无评论
成为第一个评论的人