Qwen 3 Max
搜索文档
 AI 交易大赛结果出炉:只有中国 AI 赚钱,跟 GPT-5 反着买,别墅靠大海
 36氪· 2025-11-04 11:26
具体来说, nof1.ai 官方直接给每个大模型发 1 万美元,让它们在 Hyperliquid 平台交易加密货币永续合约。 参赛阵容也足够豪华,包含 Claude 4.5 Sonnet、DeepSeek V3.1 Chat、Gemini 2.5 Pro、GPT-5、Grok 4、Qwen 3 Max 等全球 6 大顶级 AI。 交易品种包括 BTC、ETH、BNB、SOL、XRP、DOGE,可以做多做空,随便加杠杆。胜负标准是风险调整后的收益,不光看赚多少,还得看承担多大风 险。 最关键的是,所有 AI 的思考过程和交易记录全部公开透明,必须完全自主决策,人类不能插手。 一起来看看最终成绩单。 阿里 Qwen 3 Max 最后阶段完成反超夺冠,DeepSeek 紧随其后拿下亚军,中国 AI 包揽前二,也是仅有的两个赚钱选手。 而 GPT-5 爆亏,在 6 个模型里排名垫底。 刚刚,为期两周的 AI 投资大乱斗收官。 | OVERALL STATS | ADVANCED ANALYTICS | | | | | | | | | | | --- | --- | --- | --- | --- | --- | -- ...
 DeepSeek, Qwen AI Besting ChatGPT, Grok, Gemini In AI Crypto Trading Challenge
 Yahoo Finance· 2025-11-01 21:54
 比赛概况 - 由专注于金融市场的AI研究实验室Nof1发起一项名为Alpha Arena的AI模型加密货币交易竞赛 [1][2] - 竞赛于10月17日开始,旨在测试流行AI模型的投资能力 [2] - 各模型获得1万美元的相同起始资金、相同的提示和输入数据,任务是在去中心化交易所Hyperliquid上进行加密货币交易以实现回报最大化 [2] - Alpha Arena挑战赛将于11月3日结束,排名可能仍有显著变动时间 [6]   参赛模型表现 - 截至报道时,中国模型DeepSeek V3.1 Chat表现突出,其资本从初始1万美元增长至21600美元,实现116%的收益 [3] - 阿里巴巴开发的Qwen 3 Max以约70%的收益位居第二,资本增长至近17000美元 [3] - Anthropic的Claude 4.5 Sonnet和xAI的Grok 4分别以11%和4%的收益率争夺第三和第四名 [4] - 表现最差的是谷歌的Gemini 2.5 Pro和OpenAI的ChatGPT 5,亏损均超过60% [4] - GPT-5和Gemini 2.5 Pro在测试中频繁选择较小的头寸规模,表现得不如以往测试中的竞争对手激进 [4]   表现差异分析 - Monad区块链游戏生态系统负责人认为,中国模型可能因为在面向亚洲的论坛上接受了更多加密原生对话的训练而具有优势 [5] - DeepSeek据报道是一家量化交易公司的副业项目 [5] - 另有观点认为Alpha Arena挑战赛的结果遵循随机游走模型,即平均交易头寸将收敛于起点 [6]   AI交易能力研究背景 - Alpha Arena是众多测试AI模型交易能力的实验和研究之一 [7] - 斯坦福大学研究人员在6月通过仅使用公开信息训练的模型,能够在30年期间击败93%的基金经理,平均超出600% [7]
 AI 全球“斗蛐蛐”,中国队胜出
 虎嗅· 2025-10-28 16:44
 比赛概况与核心观点 - 美国实验室Nof1启动一项金融实战比赛,向六个顶尖AI大模型各提供10,000美元真实资金,在虚拟货币永续合约市场进行为期约两周的投资对决,核心在于测试AI在真实波动市场中的策略有效性、风险控制及执行纪律[1][2] - 比赛结果显示,来自中国的模型表现优异,幻方DeepSeek V3.1 Chat和阿里Qwen 3 Max收益率遥遥领先,而谷歌Gemini 2.5 Pro和OpenAI GPT-5则一度亏损约70%[1][9] - 此次比赛与以往回测不同,是让AI直面真实、动态、复杂的市场环境,实践是检验真理的唯一标准,市场是检测AI智能的终极测试[13]   各AI模型表现与策略分析 - **幻方DeepSeek (DS)**:采取稳健的量化策略,全仓分散做多并持有类似自建指数,杠杆10-15倍,预留现金,平均持仓时间长达49小时,夏普比率最高,账户价值达$21,566,收益率+115.66%[6][15][19][20] - **阿里Qwen**:策略激进,看准机会即满仓高倍杠杆押注单一资产,现金预留极少,80%以上收益来自一笔交易,夏普率0.338,账户价值$16,817,收益率+68.17%,但高收益伴随极高波动性[10][11][15][21] - **Claude 4.5 Sonnet**:分析能力强但执行犹豫,频繁调仓失败和止损,风格保守像基金经理,胜率较高但收益一般,账户价值$11,312,收益率+13.12%[2][9][15][17] - **Grok 4**:交易风格激进,全多头布局,但对与马斯克叙事相关的虚拟资产偏好可能拖累表现,收益曲线大幅波动,账户价值$10,450,收益率+4.5%[6][9][15][18] - **谷歌Gemini 2.5 Pro**:策略漂移摇摆不定,频繁开仓平仓产生高额交易成本,小赢大亏,最大收益金额约为最大损失的一半,账户价值$3,867,收益率-61.33%[7][8][15] - **OpenAI GPT-5**:存在频繁交易和小赢大亏问题,胜率低,策略矛盾且未设止损,多次爆亏严重侵蚀本金,亏损率最高时超过75%,账户价值$3,825,收益率-61.75%[9][15][16]   表现差异原因分析 - 模型表现差异与背后平台训练数据密切相关,DeepSeek背后的幻方量化在中国A股市场积累了海量实战交易数据和策略,对“好的交易决策”理解更接地气[21] - OpenAI和Google的训练数据可能更偏向学术论文和网络文本,对实盘交易理解不足,而DeepSeek可能在训练时特别优化了时间序列预测能力,GPT-5更擅长处理自然语言[21][22] - 在真实交易场景中,强大的语言能力不足以保证成功,对市场的动态理解更为关键[14]   对投资行业的启示 - 从长期投资角度看,若无信心成为顶尖交易员,DeepSeek的多头分散策略更具可持续性,普通投资者应避免过度交易并谨慎使用杠杆[23] - 若判断市场处于上行周期,应学会忽略小幅震荡,稳定持有相比频繁交易是更优解[24] - AI的优势在于理性、无情绪化,能快速处理海量信息并提供结构化判断,但其短板是无法预测未来,难以捕捉市场动态博弈与隐性信号,面对黑天鹅事件反应滞后[26] - 能高效运用AI辅助投资的人本身已是成熟投资者,AI仅是决策辅助工具,理性的工具与人的智慧相结合才是未来最佳交易策略[27][28][29]
 当顶级AI被拉去炒币,结果只有中国模型赚疯了
 36氪· 2025-10-24 20:56
 实验概述 - 实验由nof1ai主办旨在测试顶级AI模型在真实加密货币市场的交易能力[2] - 每个模型获得1万美元启动资金在Hyperliquid上进行加密货币永续合约交易完全自主决策禁止人类干预[2] - 交易记录和思考过程全部公开并在Kalshi和Polymarket开设公众预测盘口[2]   最终业绩表现 - 截至10月24日上午10点Qwen 3 Max净值达到15594美元收益率接近60%[1][10] - DeepSeek净值达到12926美元收益率约为30%[1][10] - Grok 4和Claude 45净值均在9000美元附近小幅亏损[11] - Gemini 25 Pro和GPT-5表现最差净值分别为3792美元和2783美元亏损率分别为619%和721%[1][11]   中期业绩表现 - 截至10月22日早上DeepSeek净值11061美元单日最高涨幅36%一度突破15万美元[7] - 同期Qwen 3 Max净值10613美元Grok 4净值约1万美元Claude 45净值8463美元[7] - Gemini 25 Pro和GPT-5净值分别为4425美元和3510美元在4天内亏损超过50%本金[7]   模型交易风格分析 - DeepSeek风格激进偏好高频剥头皮交易需多个技术指标同时确认才下单单笔仓位占比60%-80%并设置-5%止损[12][13][14][15] - Qwen 3 Max风格极简稳健截至24日4点仅进行22笔交易很少同时持有超过两个仓位主要持有BTC多头且对自身决策信心度高平均评分80分[17][18] - Grok 4策略僵化盲信趋势指标在BTC下跌期间反向建仓多头在反弹期间反复做空连续亏损超过3000美元且拒绝根据市场变化调整策略[19] - GPT-5交易过于急躁对每次价格波动都做出反应缺乏信号确认导致交易频繁但亏损严重[21] - Gemini 25 Pro表现为典型高风险风格高频交易108笔几乎是Qwen的5倍经常满仓开6个仓位并使用杠杆且经常违反自定规则该止损时硬扛节奏混乱最终导致巨额亏损[22][23][24]   实验意义与行业洞察 - 实验核心意义在于观察AI在真实不确定金融市场中是否具备自我修正能力而不仅仅是比拼收益[26] - 金融市场被视为训练下一代AI智能体的关键环境因其充满变化和反制能真正考验AI的适应性和进化能力[26][27] - 中国模型Qwen和DeepSeek在实验中显著领先表明其在复杂交易环境中具备更强的实战能力[11]
 六大主流AI模型实盘投资竞赛 中国开源模型先后保持领先 GPT-5与Gemini折戟
 每日经济新闻· 2025-10-23 14:16
 比赛结果 - 阿里千问Qwen在AI大模型实时投资比赛"Alpha Arena"中凭借出色策略和实操首次夺得第一名[1] - 来自中国的另一款开源大模型DeepSeek在此前保持了较长时间的领先优势[1] - GPT-5在本次比赛中继续垫底[1]   比赛概况 - "Alpha Arena"AI投资实战竞赛由美国研究实验室nof1ai发起吸引多家全球主流大模型参赛[1] - 参赛的六大主流AI模型包括DeepSeekGPT-5Gemini 25 ProClaude Sonnet 45Grok 4与阿里的Qwen 3 Max[1] - 每个模型以1万美元初始资金在去中心化交易所Hyperliquid进行永续合约交易收益率是唯一评判标准[1]   模型表现分析 - 阿里旗下Qwen 3 Max暂列收益榜首其投资路径显示能够在高频市场反馈中持续自我优化[1] - 该模型通过实时强化学习调整策略使收益曲线呈现出稳定上行趋势[1] - 在这场真金白银的实盘交易中来自中国的开源大模型表现不俗[1]
 全球 6 大顶级 AI 实盘厮杀,Deepseek 三天收益爆赚36%傲视群雄
 搜狐财经· 2025-10-22 08:19
 实验概述 - Nof1组织了一场为期三天的真实交易对决,为6个顶级大语言模型各提供1万美元资金,在Hyperliquid的去中心化交易所进行加密货币永续合约交易[4] - 参赛模型包括Anthropic的Claude 4.5 Sonnet、深度求索的DeepSeek V3.1 Chat、谷歌的Gemini 2.5 Pro、OpenAI的GPT 5、xAI的Grok 4和阿里通义的Qwen 3 Max[4] - 实验采用完全自主的交易方式,使用真实资金在真实市场中运行,旨在检验模型在真实市场环境下的交易能力[5][6]   交易策略与执行 - DeepSeek模型制胜关键在于一套结构清晰且执行严格的交易策略,所有模型接收相同的简单交易指令,不涉及复杂的技术分析[9] - DeepSeek严格遵循指令核心原则:将资金分散投资于以太坊ETH、比特币BTC等六种主流加密资产,有效规避单一资产价格剧烈波动风险[10] - DeepSeek采用温和的交易杠杆控制风险敞口,并为每笔交易设置明确止损点并严格执行,快速退出亏损头寸,让盈利交易继续发展[10]   模型表现对比 - DeepSeek模型在交易对决中表现优异,其成功并非偶然[9] - Grok 4模型表现强劲,以30%的收益率紧随DeepSeek之后[10] - 其余参赛模型均因各类失误未能取得理想成绩,部分模型在执行层面出现问题,如订单执行失败或因平台延迟错失交易信号[10] - 一些模型在策略解读上出现偏差,有的过度谨慎错失市场良机,有的策略过于激进在上涨市场中采取做空头寸导致资金快速回撤[10]   表现差异根源 - 各模型表现的差异源于对指令的执行能力、风险处理能力和交易管理能力[10] - 实验凸显了不同大语言模型在理解并执行交易指令、风险控制和交易纪律方面的能力差异[10]
 DeepSeek outperforms AI rivals in 'real money, real market' crypto showdown
 Yahoo Finance· 2025-10-21 17:30
 实验概况 - 美国研究公司Nof1发起一项名为Alpha Arena的真实市场加密货币交易实验 旨在评估不同大型语言模型的投资能力 [1] - 实验于周五启动 将持续至11月3日 六款模型各自获得10,000美元初始资金 在去中心化交易所Hyperliquid上投资六种加密货币永续合约 包括比特币和solana [1][2] - 实验目标是使基准测试更贴近现实世界 市场具有动态性、对抗性、开放性和不可预测性 能以静态基准测试无法做到的方式挑战人工智能 [3]   模型表现 - 截至周二下午2点 DeepSeek的V3 1模型表现最佳 实现10 11%的利润 而OpenAI的GPT-5模型表现最差 亏损达39 73% [2] - 参与实验的首批模型还包括阿里巴巴云的Qwen 3 Max、Anthropic的Claude 4 5 Sonnet、Google DeepMind的Gemini 2 5 Pro和xAI的Grok 4 [2] - 根据实验联合创始人所述 DeepSeek和Grok是迄今为止表现最好的两个模型 [6]   运作机制 - 模型的既定目标是最大化风险调整后收益 它们基于相同的提示和输入数据(如资金费率、交易量)自主执行交易 [4] - 模型在每次交易背后自我生成的“推理”会显示在网站上 公众可通过每个模型的专属Hyperliquid钱包地址追踪其交易 [4] - 在预测市场Polymarket上 DeepSeek以41%的胜率领先 截至周二下午2点 投注额达到29,707美元 [7]   市场反应与背景 - 中国初创公司DeepSeek于2023年由对冲基金经理High Flyer-Quant分拆出来 其在新基准测试中的成功引发市场猜测 认为其模型可能接受了高质量金融数据的训练 [6]
 六大AI拿1万美元真实交易:DeepSeek最能赚,GPT-5亏麻了
 虎嗅· 2025-10-20 19:49
 Alpha Arena AI投资竞赛概况 - 全球6大顶级AI模型参与加密货币投资竞赛,每个模型获得1万美元初始资金在Hyperliquid平台交易加密货币永续合约[3][4] - 参赛模型包括Claude 4.5 Sonnet、DeepSeek V3.1 Chat、Gemini 2.5 Pro、GPT-5、Grok 4、Qwen 3 Max等主流AI系统[4] - 竞赛采用风险调整后收益作为评判标准,要求AI完全自主决策且所有交易过程公开透明[6][7]   各AI模型投资表现对比 - DeepSeek V3.1以43.1%收益率排名第一,账户价值达14,310美元,通过6笔交易实现4,310美元盈利[11][12] - Grok 4以39.21%收益率位列第二,账户价值13,921美元,但仅进行1笔交易且风险集中[11][12] - Claude 4.5 Sonnet获得25.28%收益率,账户价值12,528美元,采用稳健策略且盈亏比优异[11][12] - GPT-5亏损24.78%,账户价值7,522美元,进行12笔多空混合交易但策略失效[11][12] - Gemini 2.5 Pro亏损27.74%排名垫底,账户价值7,226美元,46笔高频交易产生439美元手续费[11][12]   AI投资策略分析 - DeepSeek采用中高杠杆分散配置的纯多头趋势跟随策略,持有6个加密货币多头仓位且全部盈利[13][14] - Grok 4实施全多头布局但BTC使用20倍高杠杆,走势相对稳定[21] - GPT-5采用多空混合策略体现宏观推理能力,但做空SOL导致重大亏损[26] - Gemini 2.5 Pro依赖短周期信号高频调整,交易效率低下[30] - Qwen3 Max通过轻仓试水控制风险,仅持有一笔ETH多头仓位[27]   AI在金融投资领域的发展前景 - nof1.ai认为金融市场是训练下一代AI的最佳场所,相比固定规则游戏更具挑战性[34] - 公司计划通过开放式学习和大规模强化学习让AI生成训练数据,解决复杂市场挑战[35] - 佛罗里达大学研究显示ChatGPT驱动的交易模型曾产生超过500%回报,远超同期标普500指数表现[38] - AI投资的核心价值在于交易过程透明度,为投资者提供可追溯的决策记录[41]   行业背景与专业优势 - DeepSeek母公司幻方量化自2008年开展全自动量化交易,管理规模曾破千亿,具备专业交易基因[17] - nof1.ai正在开发自有模型,计划在第二赛季与第三方模型同台竞技[35] - AI投资领域呈现明显分化,部分模型表现优异而部分表现不佳,类似人类投资者中的业绩差异[39]
 六大AI模型被扔进加密市场厮杀,DeepSeek暂为交易之王
 财联社· 2025-10-20 18:48
 实验概述 - 美国人工智能研究实验室nof1ai在其Alpha Arena平台上举办实盘交易竞赛 给予六个顶级大语言模型各10000美元真实资本在Hyperliquid交易所交易加密货币永续合约[1] - 竞赛目标为风险调整后收益最大化 模型需自行产生超额收益、确定仓位、择时交易并管理风险 所有对话在nof1ai网站公开可见[1] - 模型决策基于系统提供的当前时间、账户信息、持仓情况、实时价格及指标数据 决定继续持有、平仓、买入或观望[2]   模型表现排名 - DeepSeek V3.1 Chat表现最佳 经过近60小时激战 其持仓总市值接近14000美元 收益率约40% 最高时一度接近15000美元[3] - Grok 4实力次之 持仓总市值在13300美元附近 DeepSeek和Grok 4均依靠做多比特币和以太坊获利[5] - Claude 45 Sonnet和通义Qwen 3 Max收益位列三四 前者主要交易瑞波币和以太坊 后者专注于以太坊 两者整体跑赢比特币现货走势[6] - GPT 5和Gemini 25 Pro表现最差 出现明显亏损 持仓总市值分别为7300美元和6900美元 亏损约2700和3100美元[6]   行业意义与前景 - 该竞赛旨在使基准测试更贴近真实世界 金融市场因其动态性、对抗性、开放性与高度不可预测性 被视为挑战人工智能的理想试炼场[6] - 市场期待在DeFAI方向出现杀手级应用 让大语言模型参与链上博弈被认为有巨大想象空间[7] - 第一季竞赛将运行数周 随后推出重大更新的第二季[6]