大语言模型在复杂推理任务上表现强劲,但如何高效引导它们处理多跳问题仍是一大挑战。传统方法常将外部知识以文本形式注入模型,但一篇来自 arXiv 的新论文提出了截然不同的思路:用视觉图结构作为内部推理脚手架。
图作为推理辅助
作者受人类使用思维导图组织分支和汇合想法的启发,探索了图结构能否作为模型自身的推理引导。研究聚焦于多跳问答场景:教师模型提供的推理轨迹被重写为图思维导图,然后用于指导学生模型。关键在于,这些图并非作为外部知识源,而是试图内化推理路径。
视觉 vs 文本:模态差距
实验揭示了显著的模态差距。当图结构被展平为文本(即用句子描述节点和边)时,一旦移除直接答案提示,其引导效果就大打折扣。作者将此设置为“抽象引导”环境,此时模型不仅推理效率下降,答案质量也明显低于预期。相比之下,视觉图引导(以图像形式呈现)保持了较高的推理连贯性和准确性。
实验发现
- 视觉图引导下的多跳问答准确率显著高于文本图引导,尤其在需要多步骤推理的问题上。
- 文本图引导在抽象条件下几乎退化为无引导基线,而视觉图仍能提供结构化支持。
- 模型在视觉图场景中对中间步骤的依赖性更强,而文本场景更容易直接跳过推理链。
这些结果暗示,视觉结构可能更适合作为 LLM 的内部推理支架。人类对视觉空间组织的天然优势或许也能迁移到模型上,帮助它们维持复杂的推理轨迹。
对 LLM 推理的启示
这项研究挑战了当前以文本为中心的知识注入方式。如果视觉图脚手架能成为一种标准推理辅助工具,未来 LLM 在处理法律分析、医疗诊断等需要多步逻辑的任务时,或许能减少幻觉并提高可解释性。
当然,视觉图引导也面临挑战:如何自动从复杂文本中提取因果图?如何适应不同领域?但至少,这项工作打开了一个值得关注的实验方向。











评论
暂无评论
成为第一个评论的人