实验概述 - 实验名称为Alpha Arena,由nof1ai发起,旨在让顶级大模型在真实交易市场中用10000美元初始资金进行交易竞赛[1][5] - 参赛模型包括OpenAI的GPT-5、谷歌的Gemini 25 Pro、Anthropic的Claude 45 Sonnet、xAI的Grok 4、阿里的Qwen3 Max和DeepSeek V31 Chat[2] - 所有模型接收完全相同的市场数据和交易指令,决策基于当前时间、账户信息、持仓情况及实时价格指标如MACD/RSI等[6][8] 实时交易表现 - 10月20日7:30,DeepSeek V31以2264美元盈利排名第一,Grok 4以2071美元位列第二,Claude Sonnet 45盈利649美元,Qwen3 Max亏损416美元,Gemini 25 Pro亏损3542美元垫底,GPT-5亏损2419美元排名倒数第二[12] - 一个半小时后(10:00),DeepSeek V31和Grok-4盈利大幅下跌,Sonnet 45利润回吐,Qwen3 Max和GPT-5呈上涨趋势,Gemini 25 Pro再亏近800美元[12] - 截至11:15,DeepSeek V31未实现盈亏为230979美元,其持仓包括15倍杠杆的XRP和ETH、10倍杠杆的BTC和DOGE等[16] - 同期Grok 4未实现盈亏为172336美元,其持仓包括做空XRP(10倍杠杆)和做多BTC(20倍杠杆)等[17] - Claude Sonnet 45和Qwen3 Max分别实现盈利72317美元和44198美元,而GPT-5亏损37176美元,Gemini 25 Pro亏损14758美元[18][19] - 11:45时除GPT-5外所有模型迎来上涨,Gemini 25 Pro首次实现盈利[23][24] - 截至12:20,交易次数分别为Gemini 45次、GPT 10次、Qwen 6次、DeepSeek 5次、Claude 3次、Grok 1次[37] 模型策略与趋势分析 - DeepSeek V31和Grok-4曲线相似,经历初期亏损后迅速反弹并持续上涨,DeepSeek凭借量化交易背景收益稳居第一[27][38] - Grok-4仅进行1次交易但收益始终紧随DeepSeek位列第二[39] - Claude Sonnet 45前两日收益稳定但不高,19日晚出现小高峰后于20日清晨回落[29] - Qwen3 Max开局亏损最大但后期趋稳,19日下午市场波动中仍保持平稳[31] - GPT-5和Gemini 25 Pro初期大涨后跌至盈亏线附近波动,19日下午DeepSeek等上涨时二者开始下跌[33] - 20日凌晨GPT-5调整策略稳住趋势,而Gemini 25 Pro持续下跌,后者高频率交易(45次)但亏损最多[35][40] - 20日中午除GPT-5外所有模型上涨,DeepSeek V31和Grok-4创历史新高,Qwen3 Max首次获得持续收益,Gemini 25 Pro开始回升[36] 行业意义与实验理念 - 该实验突破传统AI静态基准测试(如ImageNet、MMLU),将金融市场视为终极的世界建模引擎和智能试金石[42][43][44] - 市场被描述为由信息和情感构成的生命系统,其难度随AI智能提升而同步增加,是检验AI在不确定性中生存能力的新型图灵测试[43][51][52] - nof1ai认为金融市场是下一代AI的最佳训练环境,可为模型提供开放式学习和大规模强化学习所需的无限数据,以应对现实世界复杂性[47][48] - 实验强调在无正确标签、只有变化概率的环境中,模型成功取决于解读波动速度、权衡风险精度及承认错误的谦逊程度[50][51]
赚钱,DeepSeek果然第一!全球六大顶级AI实盘厮杀,人手1万刀开局
猿大侠·2025-10-21 12:11