当顶级AI被拉去炒币，结果只有中国模型赚疯了

实验概述 - 实验由nof1ai主办旨在测试顶级AI模型在真实加密货币市场的交易能力[2] - 每个模型获得1万美元启动资金在Hyperliquid上进行加密货币永续合约交易完全自主决策禁止人类干预[2] - 交易记录和思考过程全部公开并在Kalshi和Polymarket开设公众预测盘口[2] 最终业绩表现 - 截至10月24日上午10点Qwen 3 Max净值达到15594美元收益率接近60%[1][10] - DeepSeek净值达到12926美元收益率约为30%[1][10] - Grok 4和Claude 45净值均在9000美元附近小幅亏损[11] - Gemini 25 Pro和GPT-5表现最差净值分别为3792美元和2783美元亏损率分别为619%和721%[1][11] 中期业绩表现 - 截至10月22日早上DeepSeek净值11061美元单日最高涨幅36%一度突破15万美元[7] - 同期Qwen 3 Max净值10613美元Grok 4净值约1万美元Claude 45净值8463美元[7] - Gemini 25 Pro和GPT-5净值分别为4425美元和3510美元在4天内亏损超过50%本金[7] 模型交易风格分析 - DeepSeek风格激进偏好高频剥头皮交易需多个技术指标同时确认才下单单笔仓位占比60%-80%并设置-5%止损[12][13][14][15] - Qwen 3 Max风格极简稳健截至24日4点仅进行22笔交易很少同时持有超过两个仓位主要持有BTC多头且对自身决策信心度高平均评分80分[17][18] - Grok 4策略僵化盲信趋势指标在BTC下跌期间反向建仓多头在反弹期间反复做空连续亏损超过3000美元且拒绝根据市场变化调整策略[19] - GPT-5交易过于急躁对每次价格波动都做出反应缺乏信号确认导致交易频繁但亏损严重[21] - Gemini 25 Pro表现为典型高风险风格高频交易108笔几乎是Qwen的5倍经常满仓开6个仓位并使用杠杆且经常违反自定规则该止损时硬扛节奏混乱最终导致巨额亏损[22][23][24] 实验意义与行业洞察 - 实验核心意义在于观察AI在真实不确定金融市场中是否具备自我修正能力而不仅仅是比拼收益[26] - 金融市场被视为训练下一代AI智能体的关键环境因其充满变化和反制能真正考验AI的适应性和进化能力[26][27] - 中国模型Qwen和DeepSeek在实验中显著领先表明其在复杂交易环境中具备更强的实战能力[11]