Genebench-Pro: OpenAI 用科学推理新基准考验模型

Genebench-Pro: OpenAI 用科学推理新基准考验模型

Grace Sullivan
115
original

OpenAI 发布 Genebench-Pro,一个专注于基因组学、蛋白质工程等领域的 AI 推理评估基准。它比前代更难,要求模型从实验数据中推导结论,而非检索知识。对科研和 AI 开发意义重大。

OpenAI 最近低调上线了 Genebench-Pro,一个专为评估 AI 在科学推理领域能力的新基准。虽然名字里带“基因”,但它的覆盖面远不止基因组学——蛋白质设计、代谢路径、结构预测都在射程之内。这个问题很实际:现在的 LLM 在考试类基准上刷分容易,可一旦面对真实研究场景,往往抓瞎。Genebench-Pro 想做的,就是把“考试”变成“实验”。

为什么科学推理需要单独测

传统基准测试(比如 MMLU)测的是知识储备:模型知道 Watson-Crick 配对法则吗?它记得 CRISPR 的工作机制吗?Genebench-Pro 则换了一个角度:给你一组未公开的实验数据,让你倒推出背后的生物学规律。这要求模型具备 假设生成因果推断多步推理 的能力,而不是单纯记忆。

  • 从原始序列数据预测蛋白质稳定性变化
  • 根据基因表达谱推断调控关系
  • 设计突变实验来验证某个假说

这些任务对人类科研人员都不轻松,对当前的大模型更是如此。OpenAI 用 Pro 版本把难度拔高了一截。

它怎么工作,又有什么用

Genebench-Pro 由一系列领域专家手工构建的题目组成,每道题都附带 模拟实验环境——模型可以“调用”计算工具,比如 BLAST 搜索、Rosetta 能量计算,甚至小型虚拟实验室。评测时模型必须主动做选择,而不是输出一句话就完事。

一个典型的场景:给定一组酶序列,要求模型设计三个点突变并进行虚拟筛选,最后解释哪个组合最有希望。这已经不是“问答”,而是“研究”。

对于科研机构来说,这个基准可以帮他们筛选更合适的基础模型;对于开发者,它明确了下一步优化方向——复杂推理工具使用 的融合。On the downside,基准目前仅限 OpenAI 内部使用,外部研究者暂时只能读到案例,无法直接提交模型结果。公开化计划尚未公布。

对领域意味着什么

Genebench-Pro 的出现,反映出 AI 评估正在从“知识问答”转向“能力展示”。类似方向还有 Google 的 MMLU-Pro 和 DeepMind 的 MATH,但 Genebench 系列聚焦生命科学,细分赛道。如果未来开放参与,可能会像 Big-Bench 一样成为社区协作标杆。不过目前门槛还高:题目设计成本大、领域知识壁垒深。

实用角度来看,如果你在寻找能辅助生物信息学研究的模型,可以关注哪些模型在 Genebench-Pro 上表现好——这是比论文指标更硬核的参考。但别指望马上能拿到公开排名;OpenAI 向来谨慎,数据泄露风险管控严格。耐心等一两年吧。

Genebench-Pro科学推理基准OpenAI评估基因组学AI蛋白质工程AI科研能力大模型评测生命科学AI

分享

评论

0
0/500 字符

暂无评论

成为第一个评论的人