
核心观点 - 全新基准测试Prophet Arena通过预测真实世界事件评估AI的预言能力 该测试结合市场共识、自动化预测和信息整理 旨在衡量AI在不确定性推理、信息整合和概率预测方面的表现 [1][9][10] 基准测试设计 - Prophet Arena从Kalshi和Polymarket等预测市场平台选取热门周期性真实事件作为考题 包括政治、体育、经济等多个领域 [12][13] - 测试流程分为情报收集、提交预测和结果揭晓三个阶段 AI需利用搜索引擎整理情报简报并提交概率分布报告 [14][15][16] - 评估指标采用Brier分数(衡量准确度和校准度)和模拟投注平均回报 并引入项目反应理论和广义Bradley-Terry模型等高级统计方法 [18] AI模型表现对比 - 在2025年降息次数预测中 GPT-5预测精确2次降息概率43% Grok 3 Mini为40% Gemini 2.5 Flash预测恰好1次降息概率35% [4] - 关于经济衰退预测 o3 Mini认为不会衰退概率90% GPT-5为60% [4] - 在NBA冠军预测中 Gemini 2.5 Flash预测凯尔特人2027年前再次夺冠概率95% Llama 4任性版为85% [4] - OpenAI的o3-mini模型在平均回报指标上名列前茅 例如在美职足比赛中通过识别市场定价偏差实现单笔投注9倍回报 [40][42][43] 预测行为特征 - AI模型表现出明显风险偏好差异 例如在AI监管立法预测中 Qwen3给出75%概率而Llama 4 Maverick仅35% 远高于市场25%的共识 [35][36] - 高回报预测常出现在Brier分数0.3-0.5区间 主要来自体育比赛爆冷 例如温网比赛中AI通过识别84%市场胜率与80%实际评估的微小差异实现6倍回报 [22][23][25][27] - 模型间预测差异显著 DeepSeek R1与其他模型L2距离持续高于0.7 而Grok-4与GPT-5的L2距离通常低于0.3 显示算法校准机制差异 [46][47][48] 预测市场数据 - Polymarket平台显示 NVIDIA被72%预测为2025年底最大公司 Microsoft为20% [13] - Google在8月底最佳AI模型预测中获93%支持率 OpenAI仅3% [13] - 特斯拉2025年推出无人驾驶Robotaxi服务预测概率67% [13] - 美联储9月降息25bps概率74% 维持利率概率24% [13]