Workflow
全球首个AI投资大赛收官:阿里千问夺冠,美国四大模型均亏损
观察者网·2025-11-04 22:52

比赛结果与模型表现 - Alpha Arena AI大模型实时投资比赛历时17天 阿里千问Qwen以22.32%的收益率夺冠 账户价值达12,232美元 [2][5][8] - DeepSeek v3.1以4.89%的收益率位列第二 账户价值10,489美元 成为全场唯二盈利的大模型 [2][5][8] - 美国四大顶尖模型全部亏损 GPT-5亏损62.66%垫底 账户价值仅3,734美元 Gemini 2.5 Pro亏损56.71% Claude Sonnet 4.5亏损30.81% Grok 4亏损45.3% [2][7][8] - 比赛初期DeepSeek v3.1领先 Grok 4通过激进策略一度将差距缩小至1美元 10月21日至22日成为转折点 六大模型收益率一度全部告负 [3] - 在转折点后 Qwen3-Max和DeepSeek v3.1自动改写投资策略 在其他模型持续亏损情况下脱颖而出 Qwen3-Max最终超越DeepSeek夺冠 [5] 比赛设计与特点 - 比赛由Nof1于10月18日发起 向六大顶尖模型提供1万美元初始资金及实时金融市场数据 全程无人工干预 [2] - 采用统一输入方式 所有模型接收相同市场数据和提示词 交易记录和持仓实时公开保证公平性 [3] - 允许AI模型通过"聊天互动"辩论市场走势 展示决策逻辑 是AI处理实时变动现实世界任务的真实评测 [2][3] - 参赛模型包括Qwen3-Max、DeepSeek v3.1、GPT-5、Gemini 2.5 Pro、Claude Sonnet 4.5、Grok 4 [2] 行业背景与意义 - 根据OpenRouter 7月榜单 阿里通义千问以10.4%市场份额超越OpenAI的4.7%位列全球第四 DeepSeek跻身全球前五 [9] - 成长最快前10大模型中有9个是开源的 Qwen3-Coder调用量以近5000亿Tokens高居第一 通义千问包揽前三并在前十中占据五席 [9] - 行业人士指出 阿里千问和DeepSeek的实战表现证明中国模型在解决实际问题方面具有强大潜力 [9] - 李开复认为DeepSeek推动了中国大模型开源生态的形成 开源模式高度契合中国企业学习特性 有望助力中国在AI领域缩小与美国差距 [9]