PathoSage: 病理学多源证据裁决的智能体框架

Marcus Chen

2026年6月10日

212

original

PathoSage 是面向病理学切片级推理的三阶段智能体框架，通过结构化证据审议与无需训练的 Beta-Bernoulli 经验系统，独立评估来自不同工具的矛盾证据，减少锚定偏差，提升多模态大模型在病理诊断中的可靠性。

病理学诊断是一场高风险的推理游戏。一张切片可能包含数百个视野，而关键病灶往往藏在某个不起眼的角落。近年来，多模态大模型（MLLM）被引入这一领域，但问题随之而来：模型会在没有看到具体特征时「脑补」形态学细节，或者被检索到的冲突信息带偏。这与病理学家追求的「证据链闭合」相差甚远。

最近一篇预印本论文提出了一个新框架 PathoSage，试图解决这个矛盾。它的核心思路很直接：不要把所有证据都扔进同一个锅里煮，而是分步骤、独立地处理每一条线索，最后再做裁决。

三阶段设计：隔离与仲裁

PathoSage 将推理过程拆成三个明确阶段：知识检索、证据收集和证据裁决。第一阶段，系统从外部知识库（如病理学教科书、既往案例）中拉取相关背景信息；第二阶段，调用多个专用工具（如细胞计数器、组织分割模型）对切片图像做定量分析；到了第三阶段，才是真正的重头戏。

这里的关键是 Structured Evidence Deliberation（结构化证据审议）。它会把前两步产生的所有证据——可能相互矛盾的、不同模态的——单独拿出来审视，逐一评估其可信度。如果工具 A 说细胞核密度高，而检索到的文献却说该区域应该低密度，系统不会简单取平均，而是执行一次冲突分析，最后在一个全新、无污染的上下文里生成最终判断。这种设计有意避免了常见的「锚定偏差」——模型不会因为先看到某条强势证据而忽略其他信息。

经验系统：无需训练的信用评分

另一个值得关注的技术点是 Beta-Bernoulli 经验系统。它有点像给每个证据来源打一个「历史信用分」——工具过去有多靠谱？检索结果在类似病例中是否被验证过？但特别的是，这个信用模型完全不需要额外训练，通过贝叶斯更新就能在线调整。这意味着一台新的病理工作站部署后，很快就能根据本地使用记录优化证据权重，而不必等待云端模型更新。

从实际落地角度看，这种设计对医院 IT 环境相当友好。训练一个领域专用的小模型往往需要大量标注数据，而在病理领域，标注本身就是稀缺资源。

典型使用场景与意义

想象一下这样的流程：病理医师将一张胃癌切片上传到 PathoSage 系统，系统自动检索相关文献，同时调用细胞异型性检测工具和腺体结构分析工具。两个工具给出的结果看起来有出入——一个提示高风险，另一个倾向良性。此时结构化审议模块会将两方证据并列展示，并标出各自的置信度与冲突点，最后输出一个综合判断，同时附上推理依据。医师可以快速定位分歧所在，决定是否需要重新审视切片或加做免疫组化。

这项工作的实际影响在于：它让 AI 从「黑箱预测」走向了「可审计的推理」。对于监管机构和伦理审查来说，能够清晰追溯模型每一步的判断来源，远比一个准确率数字更有价值。