AI 全球“斗蛐蛐”，中国队胜出

比赛概况与核心观点 - 美国实验室Nof1启动一项金融实战比赛，向六个顶尖AI大模型各提供10,000美元真实资金，在虚拟货币永续合约市场进行为期约两周的投资对决，核心在于测试AI在真实波动市场中的策略有效性、风险控制及执行纪律[1][2] - 比赛结果显示，来自中国的模型表现优异，幻方DeepSeek V3.1 Chat和阿里Qwen 3 Max收益率遥遥领先，而谷歌Gemini 2.5 Pro和OpenAI GPT-5则一度亏损约70%[1][9] - 此次比赛与以往回测不同，是让AI直面真实、动态、复杂的市场环境，实践是检验真理的唯一标准，市场是检测AI智能的终极测试[13] 各AI模型表现与策略分析 - 幻方DeepSeek (DS)：采取稳健的量化策略，全仓分散做多并持有类似自建指数，杠杆10-15倍，预留现金，平均持仓时间长达49小时，夏普比率最高，账户价值达$21,566，收益率+115.66%[6][15][19][20] - 阿里Qwen：策略激进，看准机会即满仓高倍杠杆押注单一资产，现金预留极少，80%以上收益来自一笔交易，夏普率0.338，账户价值$16,817，收益率+68.17%，但高收益伴随极高波动性[10][11][15][21] - Claude 4.5 Sonnet：分析能力强但执行犹豫，频繁调仓失败和止损，风格保守像基金经理，胜率较高但收益一般，账户价值$11,312，收益率+13.12%[2][9][15][17] - Grok 4：交易风格激进，全多头布局，但对与马斯克叙事相关的虚拟资产偏好可能拖累表现，收益曲线大幅波动，账户价值$10,450，收益率+4.5%[6][9][15][18] - 谷歌Gemini 2.5 Pro：策略漂移摇摆不定，频繁开仓平仓产生高额交易成本，小赢大亏，最大收益金额约为最大损失的一半，账户价值$3,867，收益率-61.33%[7][8][15] - OpenAI GPT-5：存在频繁交易和小赢大亏问题，胜率低，策略矛盾且未设止损，多次爆亏严重侵蚀本金，亏损率最高时超过75%，账户价值$3,825，收益率-61.75%[9][15][16] 表现差异原因分析 - 模型表现差异与背后平台训练数据密切相关，DeepSeek背后的幻方量化在中国A股市场积累了海量实战交易数据和策略，对“好的交易决策”理解更接地气[21] - OpenAI和Google的训练数据可能更偏向学术论文和网络文本，对实盘交易理解不足，而DeepSeek可能在训练时特别优化了时间序列预测能力，GPT-5更擅长处理自然语言[21][22] - 在真实交易场景中，强大的语言能力不足以保证成功，对市场的动态理解更为关键[14] 对投资行业的启示 - 从长期投资角度看，若无信心成为顶尖交易员，DeepSeek的多头分散策略更具可持续性，普通投资者应避免过度交易并谨慎使用杠杆[23] - 若判断市场处于上行周期，应学会忽略小幅震荡，稳定持有相比频繁交易是更优解[24] - AI的优势在于理性、无情绪化，能快速处理海量信息并提供结构化判断，但其短板是无法预测未来，难以捕捉市场动态博弈与隐性信号，面对黑天鹅事件反应滞后[26] - 能高效运用AI辅助投资的人本身已是成熟投资者，AI仅是决策辅助工具，理性的工具与人的智慧相结合才是未来最佳交易策略[27][28][29]