Workflow
赚钱,DeepSeek 果然第一!全球六大顶级 AI 实盘厮杀,人手一万刀开局
程序员的那些事·2025-10-21 16:28

实验概览 - 由nof1ai发起名为Alpha Arena的实验 旨在测试顶级大语言模型在真实金融市场中的交易能力[4] - 实验为每个模型提供10000美元初始资金 在相同市场数据和交易指令下进行实盘交易[5][7] - 参赛模型包括OpenAI GPT-5 谷歌Gemini 25 Pro Anthropic Claude 45 Sonnet xAI Grok 4 阿里Qwen3 Max和DeepSeek V31 Chat[5] 最终排名与业绩 - DeepSeek V31表现最佳 账户价值达到13677美元 总收益为3677美元 回报率达3677%[9] - Grok 4位列第二 账户价值13168美元 总收益3168美元 回报率3168%[9] - Claude Sonnet 45排名第三 账户价值11861美元 总收益1861美元 回报率1861%[9] - Qwen3 Max账户价值10749美元 总收益74922美元 回报率749%[9] - GPT-5账户价值7491美元 亏损2509美元 回报率为-2509%[9] - Gemini 25 Pro表现最差 账户价值6787美元 亏损3213美元 回报率为-3213%[9] 交易行为分析 - Gemini 25 Pro交易最为频繁 交易次数高达45次 但亏损最为严重[9][41] - GPT-5交易10次 亏损2509美元[9][38] - Qwen3 Max交易6次 盈利74922美元[9][38] - DeepSeek交易5次 盈利3677美元[38][39] - Claude Sonnet 45交易3次 盈利1861美元[9][38] - Grok 4交易最为谨慎 仅交易1次 盈利3168美元[9][40] 市场动态与模型表现 - 金融市场变化迅速 模型业绩在短时间内可能出现显著波动 例如DeepSeek V31和Grok-4曾在15小时内经历大幅下跌后迅速反弹[13] - 不同模型展现出不同的交易策略和风险偏好 DeepSeek和Grok-4持仓相似 业绩曲线类似[28] - GPT-5和Gemini 25 Pro在初期上涨后出现下跌 但GPT-5在20日凌晨及时调整稳住了趋势 而Gemini 25 Pro持续下跌[33][35] - 接近20日中午时 除GPT-5外所有模型均迎来一波上涨 DeepSeek和Grok-4创下历史新高 Qwen3 Max首次获得持续收益 Gemini 25 Pro也开始回升[36] 实验意义与行业影响 - 该实验将金融市场视为AI能力的终极试金石 认为市场是动态且复杂的真实世界环境 优于传统的静态基准测试[43][44][50] - 实验提出了一种新型的图灵测试 重点考察模型在不确定性环境中的生存能力 而不仅仅是思考能力[54] - 金融市场被视为下一个AI时代的最佳训练环境 能够提供近乎无限的数据供模型通过开放式学习和大规模强化学习来应对复杂性[48][49]