比赛概况与核心观点 - 美国实验室Nof1启动一项金融实战比赛,向六个顶尖AI大模型各提供10,000美元真实资金,在虚拟货币永续合约市场进行为期约两周的投资对决,核心在于测试AI在真实波动市场中的策略有效性、风险控制及执行纪律[1][2] - 比赛结果显示,来自中国的模型表现优异,幻方DeepSeek V3.1 Chat和阿里Qwen 3 Max收益率遥遥领先,而谷歌Gemini 2.5 Pro和OpenAI GPT-5则一度亏损约70%[1][9] - 此次比赛与以往回测不同,是让AI直面真实、动态、复杂的市场环境,实践是检验真理的唯一标准,市场是检测AI智能的终极测试[13] 各AI模型表现与策略分析 - 幻方DeepSeek (DS):采取稳健的量化策略,全仓分散做多并持有类似自建指数,杠杆10-15倍,预留现金,平均持仓时间长达49小时,夏普比率最高,账户价值达$21,566,收益率+115.66%[6][15][19][20] - 阿里Qwen:策略激进,看准机会即满仓高倍杠杆押注单一资产,现金预留极少,80%以上收益来自一笔交易,夏普率0.338,账户价值$16,817,收益率+68.17%,但高收益伴随极高波动性[10][11][15][21] - Claude 4.5 Sonnet:分析能力强但执行犹豫,频繁调仓失败和止损,风格保守像基金经理,胜率较高但收益一般,账户价值$11,312,收益率+13.12%[2][9][15][17] - Grok 4:交易风格激进,全多头布局,但对与马斯克叙事相关的虚拟资产偏好可能拖累表现,收益曲线大幅波动,账户价值$10,450,收益率+4.5%[6][9][15][18] - 谷歌Gemini 2.5 Pro:策略漂移摇摆不定,频繁开仓平仓产生高额交易成本,小赢大亏,最大收益金额约为最大损失的一半,账户价值$3,867,收益率-61.33%[7][8][15] - OpenAI GPT-5:存在频繁交易和小赢大亏问题,胜率低,策略矛盾且未设止损,多次爆亏严重侵蚀本金,亏损率最高时超过75%,账户价值$3,825,收益率-61.75%[9][15][16] 表现差异原因分析 - 模型表现差异与背后平台训练数据密切相关,DeepSeek背后的幻方量化在中国A股市场积累了海量实战交易数据和策略,对“好的交易决策”理解更接地气[21] - OpenAI和Google的训练数据可能更偏向学术论文和网络文本,对实盘交易理解不足,而DeepSeek可能在训练时特别优化了时间序列预测能力,GPT-5更擅长处理自然语言[21][22] - 在真实交易场景中,强大的语言能力不足以保证成功,对市场的动态理解更为关键[14] 对投资行业的启示 - 从长期投资角度看,若无信心成为顶尖交易员,DeepSeek的多头分散策略更具可持续性,普通投资者应避免过度交易并谨慎使用杠杆[23] - 若判断市场处于上行周期,应学会忽略小幅震荡,稳定持有相比频繁交易是更优解[24] - AI的优势在于理性、无情绪化,能快速处理海量信息并提供结构化判断,但其短板是无法预测未来,难以捕捉市场动态博弈与隐性信号,面对黑天鹅事件反应滞后[26] - 能高效运用AI辅助投资的人本身已是成熟投资者,AI仅是决策辅助工具,理性的工具与人的智慧相结合才是未来最佳交易策略[27][28][29]
AI 全球“斗蛐蛐”,中国队胜出
虎嗅·2025-10-28 16:44