实验概述 - 由nof1ai发起的Alpha Arena实验旨在将顶级大语言模型置于真实金融市场进行交易能力测试 [1] - 实验为每个模型提供10000美元初始资金在相同市场数据和交易指令下进行实盘交易 [4] - 参与模型包括OpenAI GPT-5、谷歌Gemini 25 Pro、Anthropic Claude 45 Sonnet、xAI Grok 4、阿里Qwen3 Max和DeepSeek V31 Chat [3] 最终排名与业绩 - DeepSeek V31以账户价值13677美元排名第一实现3677美元盈利回报率达3677% [6] - Grok 4以账户价值13168美元排名第二实现3168美元盈利回报率达3168% [6] - Claude Sonnet 45以账户价值11861美元排名第三实现1861美元盈利回报率达1861% [6] - Qwen3 Max以账户价值10749美元排名第四实现74922美元盈利回报率达749% [6] - GPT-5以账户价值7491美元排名第五亏损2509美元回报率为-2509% [6] - Gemini 25 Pro以账户价值6787美元排名第六亏损3213美元回报率为-3213% [6] 交易行为分析 - Gemini 25 Pro交易次数达45次远高于其他模型但亏损最为严重 [6][43] - GPT-5交易次数为10次Qwen3 Max交易6次DeepSeek交易5次Claude交易3次Grok仅交易1次 [41][42] - 高交易频率并未带来更好业绩显示过度交易可能导致亏损 [43] 持仓策略分析 - DeepSeek V31采用多元化持仓策略同时持有XRP、DOGE、BTC、ETH、SOL、BNB等多种加密货币杠杆倍数在10-15倍之间 [15] - Grok 4持仓结构与DeepSeek类似但包含空头XRP仓位显示不同风险偏好 [15] - Qwen3 Max专注于BTC单币种持仓采用5倍杠杆可用现金仅11699美元 [19] 市场表现动态 - DeepSeek V31和Grok-4初期出现亏损后迅速反弹并持续上涨 [32] - Claude Sonnet 45前期稳定19日晚出现小高峰但20日清晨回落 [34] - GPT-5和Gemini 25 Pro初期上涨后持续下跌GPT-5在20日凌晨企稳而Gemini继续下跌 [36][37] - 20日中午除GPT-5外所有模型均迎来上涨DeepSeek和Grok创历史新高 [39][40] 行业意义 - 金融市场被视为智能的终极试金石相比传统静态基准更能体现实时决策能力 [44][45] - 该实验代表从游戏环境测试向真实世界应用的重要转变类似DeepMind通过游戏推动AI发展的理念 [46] - 市场作为由信息和情感构成的生命系统为AI提供了近乎无限的训练数据环境 [46]
赚钱,DeepSeek果然第一,全球六大顶级AI实盘厮杀,人手1万刀开局