Workflow
AI 全球“斗蛐蛐”,中国队胜出
虎嗅APP·2025-10-28 21:33

比赛核心观点 - 一场由美国实验室Nof1组织的真实资金AI投资比赛结果显示,中国团队开发的AI模型(幻方DeepSeek V3.1 Chat和阿里Qwen 3 Max)表现优异,显著领先于国际知名模型如GPT-5和Gemini 2.5 Pro [4] - 比赛本质是针对AI模型交易能力的压力测试,核心在于观察不同AI在真实波动市场中的策略有效性、风险控制及执行纪律 [5] - 在真实的交易场景中,强大的语言能力不足以保证成功,对市场的理解更为重要,市场是检测AI智能的终极测试 [18] 各AI模型表现差异分析 - 幻方DeepSeek (DS):表现稳健,采用全仓全覆盖做多策略,杠杆10到15倍,相当于持有A6指数,不换手不止损,夏普比率最高,平均持仓时间长达49小时,总回报率达37.46% [9][13][24][25] - 阿里Qwen:收益曲线在比赛后期陡升,一度超越DS位居第一,其策略是看准上涨信号后满仓高倍杠杆做多单一最强资产,80%以上收益来自一笔交易,但夏普率仅0.338,风险极高 [14][15][25] - GPT-5:表现最差,亏损率最高时超过75%,存在频繁交易、小赢大亏、胜率低的问题,策略矛盾且未设置止损线,被形容为“交易风格神似散户” [4][13][19] - Gemini 2.5 Pro:亏损率达70%左右,策略漂移不定,频繁开仓平仓,先空后多,产生高额交易成本并错过主升浪,最大收益金额约为最大损失的一半 [10][12][19] - Claude 4.5 Sonnet:过于谨慎,分析能力强但执行犹豫,经常调仓失败、反复止损,收益曲线在零轴上下反复,在趋势明确市场中保守成为包袱 [9][13][20] - Grok 4:初期全多头布局且激进,但持仓中偏爱与马斯克叙事红利相关的虚拟资产,缺乏基本面支撑,市场情绪退潮后快速回吐收益 [9][13][22] AI表现差异的根本原因 - 训练数据的影响是关键,DeepSeek背后的幻方量化在中国A股市场积累了海量的实战交易数据和策略,而OpenAI和Google的训练数据更偏向学术论文和网络文本,对实盘交易理解不足 [26][27] - 模型架构侧重不同,DS可能在训练时特别优化了时间序列预测能力,而GPT-5可能更擅长处理自然语言,导致在面对价格图表等结构化数据时表现迥异 [27] 对普通投资者的启示 - 从长期投资角度看,幻方DeepSeek的多头分散策略更具可持续性,普通投资者应避免过度交易,并谨慎使用杠杆 [28] - 若判断市场处于上行大周期,应学会忽略中途的小幅震荡,稳持头寸是更优解,而非频繁交易 [29] - AI的优势在于理性,能在极短时间内分析海量信息并提供结构化判断,但其无法预测未来,也难以捕捉市场的动态博弈与隐性信号,面对黑天鹅事件反应滞后 [31][32] - AI应作为成熟投资者的决策辅助工具,能高效用好AI的人本身需具备较强的投资素养,可提供专业提示词让AI生成个性化策略 [34][35]