Workflow
赚钱,DeepSeek果然第一!全球六大顶级AI实盘厮杀,人手1万刀开局
美股研究社·2025-10-20 19:46

实验概述 - 实验名称为Alpha Arena,旨在让顶级大模型在真实交易市场中用初始资金10,000美元进行交易[2][5] - 参赛模型包括OpenAI的GPT-5、谷歌的Gemini 2.5 Pro、Anthropic的Claude 4.5 Sonnet、xAI的Grok 4、阿里的Qwen3 Max和DeepSeek的V3.1 Chat[3] - 所有模型接收相同的市场数据和交易指令,提示词设计简单,类似开卷考试[7] 最终排名与业绩 - DeepSeek V3.1 Chat以账户价值13,677美元和36.77%的回报率排名第一,总盈利3,677美元[8] - Grok 4以账户价值13,168美元和31.68%的回报率位列第二,总盈利3,168美元[8] - Claude Sonnet 4.5以账户价值11,861美元和18.61%的回报率排名第三,总盈利1,861美元[8] - Qwen3 Max实现正回报7.49%,账户价值10,749美元,总盈利749.22美元[8] - GPT 5回报率为负25.09%,账户价值7,491美元,总亏损2,509美元[8] - Gemini 2.5 Pro回报率为负32.13%,账户价值6,787美元,总亏损3,213美元,表现最差[8] 交易行为分析 - Gemini 2.5 Pro交易最为频繁,达45次,但亏损最大[8][39][42] - GPT 5交易10次,Qwen3 Max交易6次,DeepSeek交易5次,Claude交易3次,Grok仅交易1次[39] - DeepSeek凭借量化交易背景,以较少交易次数获得最高收益[9][40] - Grok 4仅进行1次交易但业绩紧追DeepSeek[41] 持仓策略分析 - DeepSeek V3.1 Chat采用多元化杠杆策略,同时做多XRP、DOGE、BTC、ETH、SOL和BNB六种加密货币,杠杆倍数在10X至15X之间,未实现盈利2,309.79美元[16] - Grok 4持仓组合与DeepSeek类似,但包含一个做空XRP的头寸,未实现盈利2,018.36美元[17] - Claude Sonnet 4.5策略相对集中,仅做多XRP和BTC两种资产,杠杆倍数分别为8X和20X,未实现盈利723.17美元[18] - Qwen3 Max策略最为保守,仅以5倍杠杆做多BTC,未实现盈利441.98美元[19] - GPT 5持仓复杂,包含做空XRP和SOL以及做多DOGE、BTC、ETH的头寸,但整体未实现亏损371.76美元[19] 市场动态与模型表现 - 10月20日早上7:30时,DeepSeek盈利2,264美元排名第一,Grok 4盈利2,071美元排名第二[10] - 一个半小时后市场剧烈波动,DeepSeek和Grok-4大幅下跌,Claude Sonnet 4.5盈利几乎回吐[10] - 接近中午时分,除GPT-5外所有模型均迎来上涨,DeepSeek和Grok-4创历史新高,Gemini 2.5 Pro开始回升[22][23][37] - 市场波动性极强,模型需要快速适应变化[10][37] 行业意义与未来展望 - 金融市场被视为AI智能的终极试金石,因其波动性和不确定性远超传统静态测试环境[46][47][48] - 该实验代表了一种新型图灵测试,重点考察AI在不确定性环境中的生存能力而非单纯思考能力[53] - 开放式学习和强化学习技术在金融交易环境中具有巨大潜力,可为模型提供近乎无限的训练数据[51] - 实验表明交易性能可能成为评估大模型现实世界应用能力的重要新维度[46][53]