GeneBench-Pro: 用真實資料衡量AI的生物學能力

OpenAI 又拿出了一套新的基準測試——GeneBench-Pro。這次瞄準的不是通用對話或文字生成，而是基因組學、生物學和科研場景。如果你覺得之前的評測離現實太遠，這套測試可能會讓你覺得更接地氣：它完全使用真實世界的複雜資料集，而不是精心裁剪過的玩具樣本。

為什麼需要專門的生物學基準？

現有的 AI 基準，像 MMLU 或 GSM8K，側重語言理解和數學推理。但生物學的資料天生就繁雜：基因序列長度動輒百萬鹼基，蛋白質結構充滿三維約束，單細胞測序資料又帶噪音。通用基準很難反映出模型在這樣環境下的真實表現。GeneBench-Pro 正是為了填補這個缺口，它把評估拉回到了實驗室和臨床研究的實際語境中。

GeneBench-Pro 到底測什麼？

根據 OpenAI 的說法，這套基準包含多項任務，核心覆蓋三類能力：首先是 序列理解，例如預測基因突變對蛋白質功能的影響；其次是 生物學推理，比如根據表達資料推斷調控網路；最後是 跨模態整合，結合文字、序列和結構資訊回答問題。所有資料均來自公開的基因組學和生物學研究專案，而不是人工構造。這意味著測試結果更能反映模型在處理真實科研難題時的水平。

它對誰有實際影響？

科研人員：可以用 GeneBench-Pro 的結果來選合適的 AI 輔助工具，例如將某些模型嵌入基因分析管線。
AI 開發者：如果模型在生物學領域表現差，說明訓練資料或架構需要調整；表現好則意味著有潛力進入生命科學市場。
製藥與診斷公司：雖然基準不直接等同於產品效能，但它能初步篩選值得進一步驗證的模型。

值得關注的一次推進

GeneBench-Pro 的出現，說明 AI 評測正在從「刷榜式」走向「場景化」。生物學領域過去缺少這樣的公開標尺，現在多了一個。不過也要留意：基準本身的資料選擇、任務設計是否能覆蓋真正的瓶頸？是否存在無意中的偏見？這些都需要社羣持續審視。對於正在探索 AI + 生命科學的人，不妨拿自己的模型跑一跑，看看短板在哪。

一套基準不可能解決所有問題，但至少讓行業多了一個可以對比的參考系。下一步，如果它擴充套件到多模態或臨床資料，影響力會更大。