Genebench-Pro: OpenAI 用科学推理新基准考验模型

OpenAI 最近低调上线了 Genebench-Pro，一个专为评估 AI 在科学推理领域能力的新基准。虽然名字里带“基因”，但它的覆盖面远不止基因组学——蛋白质设计、代谢路径、结构预测都在射程之内。这个问题很实际：现在的 LLM 在考试类基准上刷分容易，可一旦面对真实研究场景，往往抓瞎。Genebench-Pro 想做的，就是把“考试”变成“实验”。

为什么科学推理需要单独测

传统基准测试（比如 MMLU）测的是知识储备：模型知道 Watson-Crick 配对法则吗？它记得 CRISPR 的工作机制吗？Genebench-Pro 则换了一个角度：给你一组未公开的实验数据，让你倒推出背后的生物学规律。这要求模型具备 假设生成、因果推断 和 多步推理 的能力，而不是单纯记忆。

从原始序列数据预测蛋白质稳定性变化
根据基因表达谱推断调控关系
设计突变实验来验证某个假说

这些任务对人类科研人员都不轻松，对当前的大模型更是如此。OpenAI 用 Pro 版本把难度拔高了一截。

它怎么工作，又有什么用

Genebench-Pro 由一系列领域专家手工构建的题目组成，每道题都附带 模拟实验环境——模型可以“调用”计算工具，比如 BLAST 搜索、Rosetta 能量计算，甚至小型虚拟实验室。评测时模型必须主动做选择，而不是输出一句话就完事。

一个典型的场景：给定一组酶序列，要求模型设计三个点突变并进行虚拟筛选，最后解释哪个组合最有希望。这已经不是“问答”，而是“研究”。

对于科研机构来说，这个基准可以帮他们筛选更合适的基础模型；对于开发者，它明确了下一步优化方向——复杂推理 和 工具使用 的融合。On the downside，基准目前仅限 OpenAI 内部使用，外部研究者暂时只能读到案例，无法直接提交模型结果。公开化计划尚未公布。

对领域意味着什么

Genebench-Pro 的出现，反映出 AI 评估正在从“知识问答”转向“能力展示”。类似方向还有 Google 的 MMLU-Pro 和 DeepMind 的 MATH，但 Genebench 系列聚焦生命科学，细分赛道。如果未来开放参与，可能会像 Big-Bench 一样成为社区协作标杆。不过目前门槛还高：题目设计成本大、领域知识壁垒深。

实用角度来看，如果你在寻找能辅助生物信息学研究的模型，可以关注哪些模型在 Genebench-Pro 上表现好——这是比论文指标更硬核的参考。但别指望马上能拿到公开排名；OpenAI 向来谨慎，数据泄露风险管控严格。耐心等一两年吧。