BehaviorBench: 用真實行為軌跡評估使用者決策建模

Emma Carter

2026年6月4日

original

BehaviorBench是一個基於真實世界行為軌跡的基準測試，用於評估個性化決策建模。它從預測市場和鏈上記錄中重建錢包級決策歷史，包含信念預測和交易預測兩個任務，涵蓋2000個錢包、14萬+信念例項和148萬+交易例項，旨在推動更符合人類實際行為的AI系統研究。

在個性化決策系統的研究中，一個長期存在的痛點在於缺乏可靠的真實使用者資料。現有的評估基準大多依賴模擬使用者或模型生成的行為，但最新研究指出，這種模擬資料往往與人類真實行為存在系統性偏差。換句話說，你在實驗室裡測試完美的模型，到了真實世界可能完全失靈。

讓資料迴歸真實

BehaviorBench的出發點很簡單：既然模擬資料不靠譜，那就直接用真實世界的行為痕跡。研究團隊從公開的預測市場和鏈上交易記錄中，提取了2000個錢包的完整決策歷史。這些資料不是精心設計的實驗場景，而是實打實的真金白銀博弈——每個交易背後都是真實的市場判斷和風險偏好。

基準測試被劃分為兩個互補的任務層：信念預測和交易預測。前者要求模型預測使用者最終在市場中的立場和信心水平，後者則更微觀，需要預測單筆交易的方向和金額。這種雙層設計，既能捕捉使用者的長期觀點，也能刻畫其短期交易模式。

根據論文披露，整個基準包含共計141,445個信念預測例項和1,485,972個交易預測例項。這個量級足以支撐深度神經網路的訓練和評估。更重要的是，每個錢包的歷史記錄構成了一個完整的使用者畫像——他們何時建倉、何時平倉、如何管理風險，這些行為模式是模擬資料很難復現的。

一個值得注意的設計細節是：團隊刻意保留了現實世界的噪聲。比如使用者可能因為情緒化操作而做出非理性決策，這類行為在傳統基準中常被當作異常值剔除，但BehaviorBench將其視為有效訊號。這種包容度的提升，使得模型必須學會處理真實世界的不完美。

BehaviorBench的出現，填補了一個重要的評估空白。對於正在開發個性化推薦系統、自適應介面或金融助手的研究者來說，這是一個更接近實戰的測試場。你可以在訓練集上模擬，但最終要拿到這些真實行為軌跡上檢驗——模型能否理解使用者的真實意圖，而不是在重複它見過的模式？

當然，這個基準也有其侷限：資料來源僅限於預測市場和鏈上交易，能否泛化到其他決策領域（如電商瀏覽、內容消費）尚需驗證。此外，錢包等級的資料雖然豐富，但缺乏使用者身份資訊，無法進行跨平臺關聯分析。

儘管如此，BehaviorBench的開源和結構化設計，已經為行業提供了一塊堅實的墊腳石。它提醒我們：AI系統如果要真正幫人做決策，首先得學會看懂人到底怎麼做出決策。

決策建模基準測試行為軌跡使用者預測個性化決策AI研究預測市場鏈上資料