OpenAI 最近低調上線了 Genebench-Pro,一個專為評估 AI 在科學推理領域能力的新基準。雖然名字裡帶「基因」,但它的覆蓋面遠不止基因組學——蛋白質設計、代謝路徑、結構預測都在射程之內。這個問題很實際:現在的 LLM 在考試類基準上刷分容易,可一旦面對真實研究場景,往往抓瞎。Genebench-Pro 想做的,就是把「考試」變成「實驗」。
為什麼科學推理需要單獨測
傳統基準測試(比如 MMLU)測的是知識儲備:模型知道 Watson-Crick 配對法則嗎?它記得 CRISPR 的工作機制嗎?Genebench-Pro 則換了一個角度:給你一組未公開的實驗資料,讓你倒推出背後的生物學規律。這要求模型具備 假設生成、因果推斷 和 多步推理 的能力,而不是單純記憶。
- 從原始序列資料預測蛋白質穩定性變化
- 根據基因表達譜推斷調控關係
- 設計突變實驗來驗證某個假說
這些任務對人類科研人員都不輕鬆,對當前的大模型更是如此。OpenAI 用 Pro 版本把難度拔高了一截。
它怎麼工作,又有什麼用
Genebench-Pro 由一系列領域專家手工構建的題目組成,每道題都附帶 模擬實驗環境——模型可以「呼叫」計算工具,比如 BLAST 搜尋、Rosetta 能量計算,甚至小型虛擬實驗室。評測時模型必須主動做選擇,而不是輸出一句話就完事。
一個典型的場景:給定一組酶序列,要求模型設計三個點突變並進行虛擬篩選,最後解釋哪個組合最有希望。這已經不是「問答」,而是「研究」。
對於科研機構來說,這個基準可以幫他們篩選更合適的基礎模型;對於開發者,它明確了下一步優化方向——複雜推理 和 工具使用 的融合。On the downside,基準目前僅限 OpenAI 內部使用,外部研究者暫時只能讀到案例,無法直接提交模型結果。公開化計劃尚未公佈。
對領域意味著什麼
Genebench-Pro 的出現,反映出 AI 評估正在從「知識問答」轉向「能力展示」。類似方向還有 Google 的 MMLU-Pro 和 DeepMind 的 MATH,但 Genebench 系列聚焦生命科學,細分賽道。如果未來開放參與,可能會像 Big-Bench 一樣成為社羣協作標杆。不過目前門檻還高:題目設計成本大、領域知識壁壘深。
實用角度來看,如果你在尋找能輔助生物資訊學研究的模型,可以關注哪些模型在 Genebench-Pro 上表現好——這是比論文指標更硬核的參考。但別指望馬上能拿到公開排名;OpenAI 向來謹慎,資料洩露風險管控嚴格。耐心等一兩年吧。











評論
暫無評論
成為第一個評論的人