Genebench-Pro: OpenAI 用科學推理新基準考驗模型

OpenAI 最近低調上線了 Genebench-Pro，一個專為評估 AI 在科學推理領域能力的新基準。雖然名字裡帶「基因」，但它的覆蓋面遠不止基因組學——蛋白質設計、代謝路徑、結構預測都在射程之內。這個問題很實際：現在的 LLM 在考試類基準上刷分容易，可一旦面對真實研究場景，往往抓瞎。Genebench-Pro 想做的，就是把「考試」變成「實驗」。

為什麼科學推理需要單獨測

傳統基準測試（比如 MMLU）測的是知識儲備：模型知道 Watson-Crick 配對法則嗎？它記得 CRISPR 的工作機制嗎？Genebench-Pro 則換了一個角度：給你一組未公開的實驗資料，讓你倒推出背後的生物學規律。這要求模型具備 假設生成、因果推斷 和 多步推理 的能力，而不是單純記憶。

從原始序列資料預測蛋白質穩定性變化
根據基因表達譜推斷調控關係
設計突變實驗來驗證某個假說

這些任務對人類科研人員都不輕鬆，對當前的大模型更是如此。OpenAI 用 Pro 版本把難度拔高了一截。

它怎麼工作，又有什麼用

Genebench-Pro 由一系列領域專家手工構建的題目組成，每道題都附帶 模擬實驗環境——模型可以「呼叫」計算工具，比如 BLAST 搜尋、Rosetta 能量計算，甚至小型虛擬實驗室。評測時模型必須主動做選擇，而不是輸出一句話就完事。

一個典型的場景：給定一組酶序列，要求模型設計三個點突變並進行虛擬篩選，最後解釋哪個組合最有希望。這已經不是「問答」，而是「研究」。

對於科研機構來說，這個基準可以幫他們篩選更合適的基礎模型；對於開發者，它明確了下一步優化方向——複雜推理 和 工具使用 的融合。On the downside，基準目前僅限 OpenAI 內部使用，外部研究者暫時只能讀到案例，無法直接提交模型結果。公開化計劃尚未公佈。

對領域意味著什麼

Genebench-Pro 的出現，反映出 AI 評估正在從「知識問答」轉向「能力展示」。類似方向還有 Google 的 MMLU-Pro 和 DeepMind 的 MATH，但 Genebench 系列聚焦生命科學，細分賽道。如果未來開放參與，可能會像 Big-Bench 一樣成為社羣協作標杆。不過目前門檻還高：題目設計成本大、領域知識壁壘深。

實用角度來看，如果你在尋找能輔助生物資訊學研究的模型，可以關注哪些模型在 Genebench-Pro 上表現好——這是比論文指標更硬核的參考。但別指望馬上能拿到公開排名；OpenAI 向來謹慎，資料洩露風險管控嚴格。耐心等一兩年吧。