大語言模型在複雜推理任務上表現強勁,但如何高效引導它們處理多跳問題仍是一大挑戰。傳統方法常將外部知識以文字形式注入模型,但一篇來自 arXiv 的新論文提出了截然不同的思路:用視覺圖結構作為內部推理腳手架。
圖作為推理輔助
作者受人類使用思維導圖組織分支和匯合想法的啟發,探索了圖結構能否作為模型自身的推理引導。研究聚焦於多跳問答場景:教師模型提供的推理軌跡被重寫為圖思維導圖,然後用於指導學生模型。關鍵在於,這些圖並非作為外部知識源,而是試圖內化推理路徑。
視覺 vs 文字:模態差距
實驗揭示了顯著的模態差距。當圖結構被展平為文字(即用句子描述節點和邊)時,一旦移除直接答案提示,其引導效果就大打折扣。作者將此設定為「抽象引導」環境,此時模型不僅推理效率下降,答案質量也明顯低於預期。相比之下,視覺圖引導(以影象形式呈現)保持了較高的推理連貫性和準確性。
實驗發現
- 視覺圖引導下的多跳問答準確率顯著高於文字圖引導,尤其在需要多步驟推理的問題上。
- 文字圖引導在抽象條件下幾乎退化為無引導基線,而視覺圖仍能提供結構化支援。
- 模型在視覺圖場景中對中間步驟的依賴性更強,而文字場景更容易直接跳過推理鏈。
這些結果暗示,視覺結構可能更適合作為 LLM 的內部推理支架。人類對視覺空間組織的天然優勢或許也能遷移到模型上,幫助它們維持複雜的推理軌跡。
對 LLM 推理的啟示
這項研究挑戰了當前以文字為中心的知識注入方式。如果視覺圖腳手架能成為一種標準推理輔助工具,未來 LLM 在處理法律分析、醫療診斷等需要多步邏輯的任務時,或許能減少幻覺並提高可解釋性。
當然,視覺圖引導也面臨挑戰:如何自動從複雜文字中提取因果圖?如何適應不同領域?但至少,這項工作開啟了一個值得關注的實驗方向。











評論
暫無評論
成為第一個評論的人