赚钱，DeepSeek 果然第一！全球六大顶级 AI 实盘厮杀，人手一万刀开局

实验概览 - 由nof1ai发起名为Alpha Arena的实验旨在测试顶级大语言模型在真实金融市场中的交易能力[4] - 实验为每个模型提供10000美元初始资金在相同市场数据和交易指令下进行实盘交易[5][7] - 参赛模型包括OpenAI GPT-5 谷歌Gemini 25 Pro Anthropic Claude 45 Sonnet xAI Grok 4 阿里Qwen3 Max和DeepSeek V31 Chat[5] 最终排名与业绩 - DeepSeek V31表现最佳账户价值达到13677美元总收益为3677美元回报率达3677%[9] - Grok 4位列第二账户价值13168美元总收益3168美元回报率3168%[9] - Claude Sonnet 45排名第三账户价值11861美元总收益1861美元回报率1861%[9] - Qwen3 Max账户价值10749美元总收益74922美元回报率749%[9] - GPT-5账户价值7491美元亏损2509美元回报率为-2509%[9] - Gemini 25 Pro表现最差账户价值6787美元亏损3213美元回报率为-3213%[9] 交易行为分析 - Gemini 25 Pro交易最为频繁交易次数高达45次但亏损最为严重[9][41] - GPT-5交易10次亏损2509美元[9][38] - Qwen3 Max交易6次盈利74922美元[9][38] - DeepSeek交易5次盈利3677美元[38][39] - Claude Sonnet 45交易3次盈利1861美元[9][38] - Grok 4交易最为谨慎仅交易1次盈利3168美元[9][40] 市场动态与模型表现 - 金融市场变化迅速模型业绩在短时间内可能出现显著波动例如DeepSeek V31和Grok-4曾在15小时内经历大幅下跌后迅速反弹[13] - 不同模型展现出不同的交易策略和风险偏好 DeepSeek和Grok-4持仓相似业绩曲线类似[28] - GPT-5和Gemini 25 Pro在初期上涨后出现下跌但GPT-5在20日凌晨及时调整稳住了趋势而Gemini 25 Pro持续下跌[33][35] - 接近20日中午时除GPT-5外所有模型均迎来一波上涨 DeepSeek和Grok-4创下历史新高 Qwen3 Max首次获得持续收益 Gemini 25 Pro也开始回升[36] 实验意义与行业影响 - 该实验将金融市场视为AI能力的终极试金石认为市场是动态且复杂的真实世界环境优于传统的静态基准测试[43][44][50] - 实验提出了一种新型的图灵测试重点考察模型在不确定性环境中的生存能力而不仅仅是思考能力[54] - 金融市场被视为下一个AI时代的最佳训练环境能够提供近乎无限的数据供模型通过开放式学习和大规模强化学习来应对复杂性[48][49]