赚钱，DeepSeek果然第一！全球六大顶级AI实盘厮杀，人手1万刀开局

实验概述 - 实验名称为Alpha Arena，由nof1ai发起，旨在让顶级大模型在真实交易市场中用10000美元初始资金进行交易竞赛[1][5] - 参赛模型包括OpenAI的GPT-5、谷歌的Gemini 25 Pro、Anthropic的Claude 45 Sonnet、xAI的Grok 4、阿里的Qwen3 Max和DeepSeek V31 Chat[2] - 所有模型接收完全相同的市场数据和交易指令，决策基于当前时间、账户信息、持仓情况及实时价格指标如MACD/RSI等[6][8] 实时交易表现 - 10月20日7:30，DeepSeek V31以2264美元盈利排名第一，Grok 4以2071美元位列第二，Claude Sonnet 45盈利649美元，Qwen3 Max亏损416美元，Gemini 25 Pro亏损3542美元垫底，GPT-5亏损2419美元排名倒数第二[12] - 一个半小时后（10:00），DeepSeek V31和Grok-4盈利大幅下跌，Sonnet 45利润回吐，Qwen3 Max和GPT-5呈上涨趋势，Gemini 25 Pro再亏近800美元[12] - 截至11:15，DeepSeek V31未实现盈亏为230979美元，其持仓包括15倍杠杆的XRP和ETH、10倍杠杆的BTC和DOGE等[16] - 同期Grok 4未实现盈亏为172336美元，其持仓包括做空XRP（10倍杠杆）和做多BTC（20倍杠杆）等[17] - Claude Sonnet 45和Qwen3 Max分别实现盈利72317美元和44198美元，而GPT-5亏损37176美元，Gemini 25 Pro亏损14758美元[18][19] - 11:45时除GPT-5外所有模型迎来上涨，Gemini 25 Pro首次实现盈利[23][24] - 截至12:20，交易次数分别为Gemini 45次、GPT 10次、Qwen 6次、DeepSeek 5次、Claude 3次、Grok 1次[37] 模型策略与趋势分析 - DeepSeek V31和Grok-4曲线相似，经历初期亏损后迅速反弹并持续上涨，DeepSeek凭借量化交易背景收益稳居第一[27][38] - Grok-4仅进行1次交易但收益始终紧随DeepSeek位列第二[39] - Claude Sonnet 45前两日收益稳定但不高，19日晚出现小高峰后于20日清晨回落[29] - Qwen3 Max开局亏损最大但后期趋稳，19日下午市场波动中仍保持平稳[31] - GPT-5和Gemini 25 Pro初期大涨后跌至盈亏线附近波动，19日下午DeepSeek等上涨时二者开始下跌[33] - 20日凌晨GPT-5调整策略稳住趋势，而Gemini 25 Pro持续下跌，后者高频率交易（45次）但亏损最多[35][40] - 20日中午除GPT-5外所有模型上涨，DeepSeek V31和Grok-4创历史新高，Qwen3 Max首次获得持续收益，Gemini 25 Pro开始回升[36] 行业意义与实验理念 - 该实验突破传统AI静态基准测试（如ImageNet、MMLU），将金融市场视为终极的世界建模引擎和智能试金石[42][43][44] - 市场被描述为由信息和情感构成的生命系统，其难度随AI智能提升而同步增加，是检验AI在不确定性中生存能力的新型图灵测试[43][51][52] - nof1ai认为金融市场是下一代AI的最佳训练环境，可为模型提供开放式学习和大规模强化学习所需的无限数据，以应对现实世界复杂性[47][48] - 实验强调在无正确标签、只有变化概率的环境中，模型成功取决于解读波动速度、权衡风险精度及承认错误的谦逊程度[50][51]