BehaviorBench: 用真实行为轨迹评估用户决策建模

Emma Carter

2026年6月4日

original

BehaviorBench是一个基于真实世界行为轨迹的基准测试，用于评估个性化决策建模。它从预测市场和链上记录中重建钱包级决策历史，包含信念预测和交易预测两个任务，涵盖2000个钱包、14万+信念实例和148万+交易实例，旨在推动更符合人类实际行为的AI系统研究。

在个性化决策系统的研究中，一个长期存在的痛点在于缺乏可靠的真实用户数据。现有的评估基准大多依赖模拟用户或模型生成的行为，但最新研究指出，这种模拟数据往往与人类真实行为存在系统性偏差。换句话说，你在实验室里测试完美的模型，到了真实世界可能完全失灵。

让数据回归真实

BehaviorBench的出发点很简单：既然模拟数据不靠谱，那就直接用真实世界的行为痕迹。研究团队从公开的预测市场和链上交易记录中，提取了2000个钱包的完整决策历史。这些数据不是精心设计的实验场景，而是实打实的真金白银博弈——每个交易背后都是真实的市场判断和风险偏好。

基准测试被划分为两个互补的任务层：信念预测和交易预测。前者要求模型预测用户最终在市场中的立场和信心水平，后者则更微观，需要预测单笔交易的方向和金额。这种双层设计，既能捕捉用户的长期观点，也能刻画其短期交易模式。

根据论文披露，整个基准包含共计141,445个信念预测实例和1,485,972个交易预测实例。这个量级足以支撑深度神经网络的训练和评估。更重要的是，每个钱包的历史记录构成了一个完整的用户画像——他们何时建仓、何时平仓、如何管理风险，这些行为模式是模拟数据很难复现的。

一个值得注意的设计细节是：团队刻意保留了现实世界的噪声。比如用户可能因为情绪化操作而做出非理性决策，这类行为在传统基准中常被当作异常值剔除，但BehaviorBench将其视为有效信号。这种包容度的提升，使得模型必须学会处理真实世界的不完美。

BehaviorBench的出现，填补了一个重要的评估空白。对于正在开发个性化推荐系统、自适应界面或金融助手的研究者来说，这是一个更接近实战的测试场。你可以在训练集上模拟，但最终要拿到这些真实行为轨迹上检验——模型能否理解用户的真实意图，而不是在重复它见过的模式？

当然，这个基准也有其局限：数据来源仅限于预测市场和链上交易，能否泛化到其他决策领域（如电商浏览、内容消费）尚需验证。此外，钱包等级的数据虽然丰富，但缺乏用户身份信息，无法进行跨平台关联分析。

尽管如此，BehaviorBench的开源和结构化设计，已经为行业提供了一块坚实的垫脚石。它提醒我们：AI系统如果要真正帮人做决策，首先得学会看懂人到底怎么做出决策。

决策建模基准测试行为轨迹用户预测个性化决策AI研究预测市场链上数据