OpenAI 最近低调上线了 Genebench-Pro,一个专为评估 AI 在科学推理领域能力的新基准。虽然名字里带“基因”,但它的覆盖面远不止基因组学——蛋白质设计、代谢路径、结构预测都在射程之内。这个问题很实际:现在的 LLM 在考试类基准上刷分容易,可一旦面对真实研究场景,往往抓瞎。Genebench-Pro 想做的,就是把“考试”变成“实验”。
为什么科学推理需要单独测
传统基准测试(比如 MMLU)测的是知识储备:模型知道 Watson-Crick 配对法则吗?它记得 CRISPR 的工作机制吗?Genebench-Pro 则换了一个角度:给你一组未公开的实验数据,让你倒推出背后的生物学规律。这要求模型具备 假设生成、因果推断 和 多步推理 的能力,而不是单纯记忆。
- 从原始序列数据预测蛋白质稳定性变化
- 根据基因表达谱推断调控关系
- 设计突变实验来验证某个假说
这些任务对人类科研人员都不轻松,对当前的大模型更是如此。OpenAI 用 Pro 版本把难度拔高了一截。
它怎么工作,又有什么用
Genebench-Pro 由一系列领域专家手工构建的题目组成,每道题都附带 模拟实验环境——模型可以“调用”计算工具,比如 BLAST 搜索、Rosetta 能量计算,甚至小型虚拟实验室。评测时模型必须主动做选择,而不是输出一句话就完事。
一个典型的场景:给定一组酶序列,要求模型设计三个点突变并进行虚拟筛选,最后解释哪个组合最有希望。这已经不是“问答”,而是“研究”。
对于科研机构来说,这个基准可以帮他们筛选更合适的基础模型;对于开发者,它明确了下一步优化方向——复杂推理 和 工具使用 的融合。On the downside,基准目前仅限 OpenAI 内部使用,外部研究者暂时只能读到案例,无法直接提交模型结果。公开化计划尚未公布。
对领域意味着什么
Genebench-Pro 的出现,反映出 AI 评估正在从“知识问答”转向“能力展示”。类似方向还有 Google 的 MMLU-Pro 和 DeepMind 的 MATH,但 Genebench 系列聚焦生命科学,细分赛道。如果未来开放参与,可能会像 Big-Bench 一样成为社区协作标杆。不过目前门槛还高:题目设计成本大、领域知识壁垒深。
实用角度来看,如果你在寻找能辅助生物信息学研究的模型,可以关注哪些模型在 Genebench-Pro 上表现好——这是比论文指标更硬核的参考。但别指望马上能拿到公开排名;OpenAI 向来谨慎,数据泄露风险管控严格。耐心等一两年吧。











评论
暂无评论
成为第一个评论的人