DivInit: 打破智慧體搜尋的並行取樣瓶頸

DivInit: 打破智慧體搜尋的並行取樣瓶頸

Emma Carter
96
original

arXiv 最新研究揭示多輪並行搜尋中首輪查詢冗餘導致收益遞減,提出 DivInit 方法,通過一次呼叫生成多個候選查詢並選取多樣種子,無需訓練即可提升多跳問答準確率 5-7 個百分點。

智慧體搜尋(Agentic Search)正在成為大模型落地的關鍵場景——模型不再是單次生成答案,而是通過多輪檢索、推理和工具呼叫逐步逼近正確結果。但一個棘手的問題是:如何高效地利用測試時的計算資源?

傳統思路分兩種:增加深度(讓每個搜尋路徑更長、更細緻)或增加廣度(並行執行多條搜尋路徑)。後者看似直觀——多跑幾路不就更容易找到答案?但一篇來自 arXiv 的新論文(2606.17209)指出,標準並行取樣存在嚴重的查詢冗餘:模型在第一條路徑中提出的第一個問題,往往與其他路徑的第一個問題高度相似。結果就是,不同路徑檢索到的文件重疊嚴重,後續推理建立在這些重疊資訊上,收益自然遞減。

冗餘的根源:首輪查詢的同質化

研究團隊對開源模型進行了系統分析。他們發現,當模型被要求為同一個問題生成多個獨立搜尋查詢時,超過 60% 的查詢在語義上高度重合。例如,面對「2023 年諾貝爾物理學獎得主有何共同貢獻?」這類多跳問題,多條並行路徑可能都先搜尋「2023 年諾貝爾物理學獎」,而忽略了從不同角度切入的可能性——比如先查「獲獎者的代表性論文」或「相關領域近年突破」。

這種同質化導致計算浪費:每一條路徑都在重複爬相同的網路頁面,而真正能連線線索的差異化資訊卻被遺漏。增加並行數(k)到一定規模後,準確率出現明顯的平臺期。

DivInit:一次呼叫,多樣播種

核心方法名為 DivInit(Diverse Initialization),完全無需微調或額外訓練。其做法非常務實:

  • 首先,讓模型一次生成 n 個候選查詢(n > k,比如 n=20,k=5);
  • 然後,從這 n 個候選中選出 k 個多樣性最高的查詢作為初始種子;
  • 最後,將這 k 個查詢分別作為並行搜尋路徑的起點,獨立執行完整的多輪搜尋流程。

選擇多樣性的演算法很輕量:計算所有候選兩兩之間的語義距離,再執行一個最大化最小距離的貪心選擇。整個過程只需幾次向量點積,成本幾乎可以忽略。

實驗覆蓋了 5 個開源模型和 8 個多跳問答基準,包括 MuSiQue、HotpotQA 等。平均來看,DivInit 在相同計算量下比標準並行取樣高出 5-7 個百分點。尤其在需要連線多個知識片段的問題上,提升最為顯著——因為多樣化首輪查詢天然更容易找回互補的證據。

實際影響:對誰有意義,下一步看什麼

【實際影響】 對正在構建搜尋增強型智慧體(如 RAG 系統的進階版)的團隊來說,DivInit 提供了一條几乎零成本的改進路線。使用者無需更換模型或調整訓練流程,只需在首輪查詢生成後加一個多樣性篩選步驟,就能獲得穩定的準確率提升。這意味著,在相同推理預算下,智慧體可以回答更復雜的問題了。

不過論文也坦承侷限:當模型本身生成能力弱時,候選池的多樣性先天不足,DivInit 的效果會打折扣。此外,多樣性的度量目前只依賴語義嵌入,可能忽略對特定任務重要的領域差異。

下一步值得關注的方向包括:將 DivInit 與動態深度擴充套件結合,以及設計更智慧的多樣性度量(例如基於任務目標的獎賞訊號)。程式碼已在 GitHub 上開源,有條件的讀者可以動手復現。

總之,這項研究提醒我們:有時候提升 not more, but smarter——不盲目增加並行數,而是讓每一次並行都跑得更聰明。對於多輪搜尋智慧體來說,這個思路值得一試。

智慧體搜尋並行取樣查詢多樣性多跳問答DivInit推理優化測試時擴充套件

分享

評論

0
0/500 字元

暫無評論

成為第一個評論的人

探索更多