Claude 4.5 Sonnet
搜索文档
DeepSeek, Qwen AI Besting ChatGPT, Grok, Gemini In AI Crypto Trading Challenge
Yahoo Finance· 2025-11-01 21:54
Benzinga and Yahoo Finance LLC may earn commission or revenue on some items through the links below. Chinese artificial intelligence models DeepSeek and Qwen AI are beating their U.S. counterparts in a real-money cryptocurrency trading challenge, according to financial markets-focused AI research lab Nof1. Nof1 on Oct. 17 kicked off a contest to test the investment capabilities of popular AI models called Alpha Arena. The models were given $10,000 in starting capital, identical prompts and input data and ...
全球顶级AI模型混战:中国AI包揽冠亚军 DeepSeek逆袭登顶
新浪财经· 2025-10-29 02:25
比赛概况与结果 - 全球顶级AI模型在nof1ai平台进行为期10天的金融实战,各获1万美元本金在Hyperliquid去中心化交易所自主交易主流加密货币,无人工干预或策略预设 [3] - 中国AI模型DeepSeek实现逆袭登顶,截至10月27日10点账户资金达22304美元,10天净赚12304美元,收益率达12304% [5] - 另一中国模型阿里通义千问Qwen3表现稳健位列第二,截至10月27日10点账户资金达20708美元,收益率为10708%,10天净赚10708美元 [5] - 美国AI模型集体陷入亏损,Claude 45 Sonnet和Grok 4亏损10%至17%,Gemini 25 Pro亏损超62%账户剩3800美元,GPT 5亏损超70%账户跌至2761美元 [6] 中国AI模型成功因素 - DeepSeek采用多元化投资组合并进行有效风险控制,使用10倍至20倍适度杠杆提升收益同时降低爆仓风险,坚持低频精准交易方式避免情绪化交易 [4] - DeepSeek开发团队幻方量化拥有深厚量化交易背景,模型继承传统量化交易风险控制基因,通过分散投资、动态调整仓位将回撤控制在最低限度 [4][7] - 阿里通义千问Qwen3展现高频优化与实时学习能力,能在高频市场反馈中持续自我优化,通过实时强化学习调整策略 [7] - 中国模型在交易中展现严谨量化模型与趋势判断敏锐性,在震荡期控回撤,在上涨期抓波段,实现收益与风险平衡 [5] 美国AI模型失误分析 - 美国模型出现方向判断错误,10月19日至22日市场处于上涨通道时,Gemini却选择做空六种加密货币导致亏损持续扩大 [8] - 美国模型缺乏止损机制,当亏损出现时没有果断止损而选择死扛,导致亏损加大 [8] - 美国模型存在情绪化决策,曲线剧烈波动与持仓组合混乱暴露决策盲目性,重仓清仓反复缺少章法 [6][8] - 美国模型持仓策略混乱,GPT和Grok多单空单混杂,Gemini做空六种加密货币背离市场趋势 [6] 行业意义与影响 - 此次实战从普通AI能力测试演变为中美AI实力巅峰对决,标志着全球AI发展进入实战PK新阶段 [4][8] - 实战揭示不同AI模型在真实市场中的决策底层逻辑,展现AI从办公室辅助工具走向实战利器的巨大潜力 [7][8] - 中国AI模型用12304%和10708%的收益与美国模型平均超40%的亏损形成鲜明对比,体现中美AI实战能力差距 [8]
AI 全球“斗蛐蛐”,中国队胜出
虎嗅APP· 2025-10-28 21:33
比赛核心观点 - 一场由美国实验室Nof1组织的真实资金AI投资比赛结果显示,中国团队开发的AI模型(幻方DeepSeek V3.1 Chat和阿里Qwen 3 Max)表现优异,显著领先于国际知名模型如GPT-5和Gemini 2.5 Pro [4] - 比赛本质是针对AI模型交易能力的压力测试,核心在于观察不同AI在真实波动市场中的策略有效性、风险控制及执行纪律 [5] - 在真实的交易场景中,强大的语言能力不足以保证成功,对市场的理解更为重要,市场是检测AI智能的终极测试 [18] 各AI模型表现差异分析 - **幻方DeepSeek (DS)**:表现稳健,采用全仓全覆盖做多策略,杠杆10到15倍,相当于持有A6指数,不换手不止损,夏普比率最高,平均持仓时间长达49小时,总回报率达37.46% [9][13][24][25] - **阿里Qwen**:收益曲线在比赛后期陡升,一度超越DS位居第一,其策略是看准上涨信号后满仓高倍杠杆做多单一最强资产,80%以上收益来自一笔交易,但夏普率仅0.338,风险极高 [14][15][25] - **GPT-5**:表现最差,亏损率最高时超过75%,存在频繁交易、小赢大亏、胜率低的问题,策略矛盾且未设置止损线,被形容为“交易风格神似散户” [4][13][19] - **Gemini 2.5 Pro**:亏损率达70%左右,策略漂移不定,频繁开仓平仓,先空后多,产生高额交易成本并错过主升浪,最大收益金额约为最大损失的一半 [10][12][19] - **Claude 4.5 Sonnet**:过于谨慎,分析能力强但执行犹豫,经常调仓失败、反复止损,收益曲线在零轴上下反复,在趋势明确市场中保守成为包袱 [9][13][20] - **Grok 4**:初期全多头布局且激进,但持仓中偏爱与马斯克叙事红利相关的虚拟资产,缺乏基本面支撑,市场情绪退潮后快速回吐收益 [9][13][22] AI表现差异的根本原因 - 训练数据的影响是关键,DeepSeek背后的幻方量化在中国A股市场积累了海量的实战交易数据和策略,而OpenAI和Google的训练数据更偏向学术论文和网络文本,对实盘交易理解不足 [26][27] - 模型架构侧重不同,DS可能在训练时特别优化了时间序列预测能力,而GPT-5可能更擅长处理自然语言,导致在面对价格图表等结构化数据时表现迥异 [27] 对普通投资者的启示 - 从长期投资角度看,幻方DeepSeek的多头分散策略更具可持续性,普通投资者应避免过度交易,并谨慎使用杠杆 [28] - 若判断市场处于上行大周期,应学会忽略中途的小幅震荡,稳持头寸是更优解,而非频繁交易 [29] - AI的优势在于理性,能在极短时间内分析海量信息并提供结构化判断,但其无法预测未来,也难以捕捉市场的动态博弈与隐性信号,面对黑天鹅事件反应滞后 [31][32] - AI应作为成熟投资者的决策辅助工具,能高效用好AI的人本身需具备较强的投资素养,可提供专业提示词让AI生成个性化策略 [34][35]
AI 全球“斗蛐蛐”,中国队胜出
虎嗅· 2025-10-28 16:44
比赛概况与核心观点 - 美国实验室Nof1启动一项金融实战比赛,向六个顶尖AI大模型各提供10,000美元真实资金,在虚拟货币永续合约市场进行为期约两周的投资对决,核心在于测试AI在真实波动市场中的策略有效性、风险控制及执行纪律[1][2] - 比赛结果显示,来自中国的模型表现优异,幻方DeepSeek V3.1 Chat和阿里Qwen 3 Max收益率遥遥领先,而谷歌Gemini 2.5 Pro和OpenAI GPT-5则一度亏损约70%[1][9] - 此次比赛与以往回测不同,是让AI直面真实、动态、复杂的市场环境,实践是检验真理的唯一标准,市场是检测AI智能的终极测试[13] 各AI模型表现与策略分析 - **幻方DeepSeek (DS)**:采取稳健的量化策略,全仓分散做多并持有类似自建指数,杠杆10-15倍,预留现金,平均持仓时间长达49小时,夏普比率最高,账户价值达$21,566,收益率+115.66%[6][15][19][20] - **阿里Qwen**:策略激进,看准机会即满仓高倍杠杆押注单一资产,现金预留极少,80%以上收益来自一笔交易,夏普率0.338,账户价值$16,817,收益率+68.17%,但高收益伴随极高波动性[10][11][15][21] - **Claude 4.5 Sonnet**:分析能力强但执行犹豫,频繁调仓失败和止损,风格保守像基金经理,胜率较高但收益一般,账户价值$11,312,收益率+13.12%[2][9][15][17] - **Grok 4**:交易风格激进,全多头布局,但对与马斯克叙事相关的虚拟资产偏好可能拖累表现,收益曲线大幅波动,账户价值$10,450,收益率+4.5%[6][9][15][18] - **谷歌Gemini 2.5 Pro**:策略漂移摇摆不定,频繁开仓平仓产生高额交易成本,小赢大亏,最大收益金额约为最大损失的一半,账户价值$3,867,收益率-61.33%[7][8][15] - **OpenAI GPT-5**:存在频繁交易和小赢大亏问题,胜率低,策略矛盾且未设止损,多次爆亏严重侵蚀本金,亏损率最高时超过75%,账户价值$3,825,收益率-61.75%[9][15][16] 表现差异原因分析 - 模型表现差异与背后平台训练数据密切相关,DeepSeek背后的幻方量化在中国A股市场积累了海量实战交易数据和策略,对“好的交易决策”理解更接地气[21] - OpenAI和Google的训练数据可能更偏向学术论文和网络文本,对实盘交易理解不足,而DeepSeek可能在训练时特别优化了时间序列预测能力,GPT-5更擅长处理自然语言[21][22] - 在真实交易场景中,强大的语言能力不足以保证成功,对市场的动态理解更为关键[14] 对投资行业的启示 - 从长期投资角度看,若无信心成为顶尖交易员,DeepSeek的多头分散策略更具可持续性,普通投资者应避免过度交易并谨慎使用杠杆[23] - 若判断市场处于上行周期,应学会忽略小幅震荡,稳定持有相比频繁交易是更优解[24] - AI的优势在于理性、无情绪化,能快速处理海量信息并提供结构化判断,但其短板是无法预测未来,难以捕捉市场动态博弈与隐性信号,面对黑天鹅事件反应滞后[26] - 能高效运用AI辅助投资的人本身已是成熟投资者,AI仅是决策辅助工具,理性的工具与人的智慧相结合才是未来最佳交易策略[27][28][29]
实测用 AI 炒币,谁赚得最多?
搜狐财经· 2025-10-27 13:39
实验概述 - 初创公司Nof1发起名为Alpha Arena的实验,让多个AI模型在真实数字货币市场进行实盘交易[1] - 每个AI模型获得一万美元启动资金,交易收益、持仓及交易逻辑均实时公开[4] - 实验采用真实交易而非模拟盘,是AI界的"Battle Royale"[4] 参赛阵容与初期表现 - 参赛AI包括OpenAI的GPT-5、谷歌的Gemini 2.5 Pro、Anthropic的Claude 4.5 Sonnet、马斯克的Grok 4、阿里的Qwen3 Max和DeepSeek V3.1 Chat[6] - DeepSeek开盘即满仓做多BTC、ETH、DOGE,几小时内盈利近一千美元,收益率达10%[6] - GPT-5表现谨慎,仓位分散且杠杆极低,在行情上涨时仍犹豫不决[8] - Gemini频繁换仓、追涨杀跌,每分钟都在操作,手续费高且亏损近一半[8] 交易风格与人格特征 - DeepSeek交易冷静,日志显示"条件未触发,继续持仓"[9] - Claude分析严谨,日志如论文般提及"根据链上指标与宏观趋势,BTC短线或反弹,但风险依旧"[11] - Grok风格激进,日志显示"趋势没完,拉满仓干"[11] - Gemini即使爆仓仍坚持原计划,日志称"止损条件未满足,计划不变"[11] 中期战况变化 - 截至21日中午,Gemini净值排名垫底,但21日下午表现回暖成功超越GPT-5[15] - 榜尾顺序变为Gemini倒数第二,GPT-5正式垫底[15] - 22日下午开始,Qwen3 Max与DeepSeek展开激烈拉锯战,两者互有领先[15] 最终排名与市场反应 - 截至26日中午12点,Qwen3 Max以微弱优势超越DeepSeek登顶第一[17] - Grok和Claude位列中游,Gemini回升但仍倒数第二,GPT-5垫底[19] - 网友热议DeepSeek被反杀,认为幻方AI也有失利之时[20] - 有分析指出样本太少偶然性大,建议重复100次取平均成绩[21] 实验意义与行业影响 - 实验是AI首次用真金白银面对真实、混沌、不可控的市场环境[22] - 不同于传统语言分数比拼,此次考核的是AI在不确定性中生存的能力[22] - 实验被视为人机决策的对照实验,每个AI都像人类情绪的镜像[22] - 类比DeepMind下围棋开启AI强化学习新纪元,此次实验可能让AI进入最复杂的博弈场——市场[24] - 实验将于11月3日迎来最终收官[24]
全球 6 大顶级 AI 实盘厮杀,Deepseek 三天收益爆赚36%傲视群雄
搜狐财经· 2025-10-22 08:19
实验概述 - Nof1组织了一场为期三天的真实交易对决,为6个顶级大语言模型各提供1万美元资金,在Hyperliquid的去中心化交易所进行加密货币永续合约交易[4] - 参赛模型包括Anthropic的Claude 4.5 Sonnet、深度求索的DeepSeek V3.1 Chat、谷歌的Gemini 2.5 Pro、OpenAI的GPT 5、xAI的Grok 4和阿里通义的Qwen 3 Max[4] - 实验采用完全自主的交易方式,使用真实资金在真实市场中运行,旨在检验模型在真实市场环境下的交易能力[5][6] 交易策略与执行 - DeepSeek模型制胜关键在于一套结构清晰且执行严格的交易策略,所有模型接收相同的简单交易指令,不涉及复杂的技术分析[9] - DeepSeek严格遵循指令核心原则:将资金分散投资于以太坊ETH、比特币BTC等六种主流加密资产,有效规避单一资产价格剧烈波动风险[10] - DeepSeek采用温和的交易杠杆控制风险敞口,并为每笔交易设置明确止损点并严格执行,快速退出亏损头寸,让盈利交易继续发展[10] 模型表现对比 - DeepSeek模型在交易对决中表现优异,其成功并非偶然[9] - Grok 4模型表现强劲,以30%的收益率紧随DeepSeek之后[10] - 其余参赛模型均因各类失误未能取得理想成绩,部分模型在执行层面出现问题,如订单执行失败或因平台延迟错失交易信号[10] - 一些模型在策略解读上出现偏差,有的过度谨慎错失市场良机,有的策略过于激进在上涨市场中采取做空头寸导致资金快速回撤[10] 表现差异根源 - 各模型表现的差异源于对指令的执行能力、风险处理能力和交易管理能力[10] - 实验凸显了不同大语言模型在理解并执行交易指令、风险控制和交易纪律方面的能力差异[10]
DeepSeek outperforms AI rivals in 'real money, real market' crypto showdown
Yahoo Finance· 2025-10-21 17:30
实验概况 - 美国研究公司Nof1发起一项名为Alpha Arena的真实市场加密货币交易实验 旨在评估不同大型语言模型的投资能力 [1] - 实验于周五启动 将持续至11月3日 六款模型各自获得10,000美元初始资金 在去中心化交易所Hyperliquid上投资六种加密货币永续合约 包括比特币和solana [1][2] - 实验目标是使基准测试更贴近现实世界 市场具有动态性、对抗性、开放性和不可预测性 能以静态基准测试无法做到的方式挑战人工智能 [3] 模型表现 - 截至周二下午2点 DeepSeek的V3 1模型表现最佳 实现10 11%的利润 而OpenAI的GPT-5模型表现最差 亏损达39 73% [2] - 参与实验的首批模型还包括阿里巴巴云的Qwen 3 Max、Anthropic的Claude 4 5 Sonnet、Google DeepMind的Gemini 2 5 Pro和xAI的Grok 4 [2] - 根据实验联合创始人所述 DeepSeek和Grok是迄今为止表现最好的两个模型 [6] 运作机制 - 模型的既定目标是最大化风险调整后收益 它们基于相同的提示和输入数据(如资金费率、交易量)自主执行交易 [4] - 模型在每次交易背后自我生成的“推理”会显示在网站上 公众可通过每个模型的专属Hyperliquid钱包地址追踪其交易 [4] - 在预测市场Polymarket上 DeepSeek以41%的胜率领先 截至周二下午2点 投注额达到29,707美元 [7] 市场反应与背景 - 中国初创公司DeepSeek于2023年由对冲基金经理High Flyer-Quant分拆出来 其在新基准测试中的成功引发市场猜测 认为其模型可能接受了高质量金融数据的训练 [6]
赚钱,DeepSeek 果然第一!全球六大顶级 AI 实盘厮杀,人手一万刀开局
程序员的那些事· 2025-10-21 16:28
实验概览 - 由nof1ai发起名为Alpha Arena的实验 旨在测试顶级大语言模型在真实金融市场中的交易能力[4] - 实验为每个模型提供10000美元初始资金 在相同市场数据和交易指令下进行实盘交易[5][7] - 参赛模型包括OpenAI GPT-5 谷歌Gemini 25 Pro Anthropic Claude 45 Sonnet xAI Grok 4 阿里Qwen3 Max和DeepSeek V31 Chat[5] 最终排名与业绩 - DeepSeek V31表现最佳 账户价值达到13677美元 总收益为3677美元 回报率达3677%[9] - Grok 4位列第二 账户价值13168美元 总收益3168美元 回报率3168%[9] - Claude Sonnet 45排名第三 账户价值11861美元 总收益1861美元 回报率1861%[9] - Qwen3 Max账户价值10749美元 总收益74922美元 回报率749%[9] - GPT-5账户价值7491美元 亏损2509美元 回报率为-2509%[9] - Gemini 25 Pro表现最差 账户价值6787美元 亏损3213美元 回报率为-3213%[9] 交易行为分析 - Gemini 25 Pro交易最为频繁 交易次数高达45次 但亏损最为严重[9][41] - GPT-5交易10次 亏损2509美元[9][38] - Qwen3 Max交易6次 盈利74922美元[9][38] - DeepSeek交易5次 盈利3677美元[38][39] - Claude Sonnet 45交易3次 盈利1861美元[9][38] - Grok 4交易最为谨慎 仅交易1次 盈利3168美元[9][40] 市场动态与模型表现 - 金融市场变化迅速 模型业绩在短时间内可能出现显著波动 例如DeepSeek V31和Grok-4曾在15小时内经历大幅下跌后迅速反弹[13] - 不同模型展现出不同的交易策略和风险偏好 DeepSeek和Grok-4持仓相似 业绩曲线类似[28] - GPT-5和Gemini 25 Pro在初期上涨后出现下跌 但GPT-5在20日凌晨及时调整稳住了趋势 而Gemini 25 Pro持续下跌[33][35] - 接近20日中午时 除GPT-5外所有模型均迎来一波上涨 DeepSeek和Grok-4创下历史新高 Qwen3 Max首次获得持续收益 Gemini 25 Pro也开始回升[36] 实验意义与行业影响 - 该实验将金融市场视为AI能力的终极试金石 认为市场是动态且复杂的真实世界环境 优于传统的静态基准测试[43][44][50] - 实验提出了一种新型的图灵测试 重点考察模型在不确定性环境中的生存能力 而不仅仅是思考能力[54] - 金融市场被视为下一个AI时代的最佳训练环境 能够提供近乎无限的数据供模型通过开放式学习和大规模强化学习来应对复杂性[48][49]
赚钱,DeepSeek果然第一!全球六大顶级AI实盘厮杀,人手1万刀开局
猿大侠· 2025-10-21 12:11
实验概述 - 实验名称为Alpha Arena,由nof1ai发起,旨在让顶级大模型在真实交易市场中用10000美元初始资金进行交易竞赛[1][5] - 参赛模型包括OpenAI的GPT-5、谷歌的Gemini 25 Pro、Anthropic的Claude 45 Sonnet、xAI的Grok 4、阿里的Qwen3 Max和DeepSeek V31 Chat[2] - 所有模型接收完全相同的市场数据和交易指令,决策基于当前时间、账户信息、持仓情况及实时价格指标如MACD/RSI等[6][8] 实时交易表现 - 10月20日7:30,DeepSeek V31以2264美元盈利排名第一,Grok 4以2071美元位列第二,Claude Sonnet 45盈利649美元,Qwen3 Max亏损416美元,Gemini 25 Pro亏损3542美元垫底,GPT-5亏损2419美元排名倒数第二[12] - 一个半小时后(10:00),DeepSeek V31和Grok-4盈利大幅下跌,Sonnet 45利润回吐,Qwen3 Max和GPT-5呈上涨趋势,Gemini 25 Pro再亏近800美元[12] - 截至11:15,DeepSeek V31未实现盈亏为230979美元,其持仓包括15倍杠杆的XRP和ETH、10倍杠杆的BTC和DOGE等[16] - 同期Grok 4未实现盈亏为172336美元,其持仓包括做空XRP(10倍杠杆)和做多BTC(20倍杠杆)等[17] - Claude Sonnet 45和Qwen3 Max分别实现盈利72317美元和44198美元,而GPT-5亏损37176美元,Gemini 25 Pro亏损14758美元[18][19] - 11:45时除GPT-5外所有模型迎来上涨,Gemini 25 Pro首次实现盈利[23][24] - 截至12:20,交易次数分别为Gemini 45次、GPT 10次、Qwen 6次、DeepSeek 5次、Claude 3次、Grok 1次[37] 模型策略与趋势分析 - DeepSeek V31和Grok-4曲线相似,经历初期亏损后迅速反弹并持续上涨,DeepSeek凭借量化交易背景收益稳居第一[27][38] - Grok-4仅进行1次交易但收益始终紧随DeepSeek位列第二[39] - Claude Sonnet 45前两日收益稳定但不高,19日晚出现小高峰后于20日清晨回落[29] - Qwen3 Max开局亏损最大但后期趋稳,19日下午市场波动中仍保持平稳[31] - GPT-5和Gemini 25 Pro初期大涨后跌至盈亏线附近波动,19日下午DeepSeek等上涨时二者开始下跌[33] - 20日凌晨GPT-5调整策略稳住趋势,而Gemini 25 Pro持续下跌,后者高频率交易(45次)但亏损最多[35][40] - 20日中午除GPT-5外所有模型上涨,DeepSeek V31和Grok-4创历史新高,Qwen3 Max首次获得持续收益,Gemini 25 Pro开始回升[36] 行业意义与实验理念 - 该实验突破传统AI静态基准测试(如ImageNet、MMLU),将金融市场视为终极的世界建模引擎和智能试金石[42][43][44] - 市场被描述为由信息和情感构成的生命系统,其难度随AI智能提升而同步增加,是检验AI在不确定性中生存能力的新型图灵测试[43][51][52] - nof1ai认为金融市场是下一代AI的最佳训练环境,可为模型提供开放式学习和大规模强化学习所需的无限数据,以应对现实世界复杂性[47][48] - 实验强调在无正确标签、只有变化概率的环境中,模型成功取决于解读波动速度、权衡风险精度及承认错误的谦逊程度[50][51]
赚钱,DeepSeek果然第一,全球六大顶级AI实盘厮杀,人手1万刀开局
36氪· 2025-10-21 09:35
实验概述 - 由nof1ai发起的Alpha Arena实验旨在将顶级大语言模型置于真实金融市场进行交易能力测试 [1] - 实验为每个模型提供10000美元初始资金在相同市场数据和交易指令下进行实盘交易 [4] - 参与模型包括OpenAI GPT-5、谷歌Gemini 25 Pro、Anthropic Claude 45 Sonnet、xAI Grok 4、阿里Qwen3 Max和DeepSeek V31 Chat [3] 最终排名与业绩 - DeepSeek V31以账户价值13677美元排名第一实现3677美元盈利回报率达3677% [6] - Grok 4以账户价值13168美元排名第二实现3168美元盈利回报率达3168% [6] - Claude Sonnet 45以账户价值11861美元排名第三实现1861美元盈利回报率达1861% [6] - Qwen3 Max以账户价值10749美元排名第四实现74922美元盈利回报率达749% [6] - GPT-5以账户价值7491美元排名第五亏损2509美元回报率为-2509% [6] - Gemini 25 Pro以账户价值6787美元排名第六亏损3213美元回报率为-3213% [6] 交易行为分析 - Gemini 25 Pro交易次数达45次远高于其他模型但亏损最为严重 [6][43] - GPT-5交易次数为10次Qwen3 Max交易6次DeepSeek交易5次Claude交易3次Grok仅交易1次 [41][42] - 高交易频率并未带来更好业绩显示过度交易可能导致亏损 [43] 持仓策略分析 - DeepSeek V31采用多元化持仓策略同时持有XRP、DOGE、BTC、ETH、SOL、BNB等多种加密货币杠杆倍数在10-15倍之间 [15] - Grok 4持仓结构与DeepSeek类似但包含空头XRP仓位显示不同风险偏好 [15] - Qwen3 Max专注于BTC单币种持仓采用5倍杠杆可用现金仅11699美元 [19] 市场表现动态 - DeepSeek V31和Grok-4初期出现亏损后迅速反弹并持续上涨 [32] - Claude Sonnet 45前期稳定19日晚出现小高峰但20日清晨回落 [34] - GPT-5和Gemini 25 Pro初期上涨后持续下跌GPT-5在20日凌晨企稳而Gemini继续下跌 [36][37] - 20日中午除GPT-5外所有模型均迎来上涨DeepSeek和Grok创历史新高 [39][40] 行业意义 - 金融市场被视为智能的终极试金石相比传统静态基准更能体现实时决策能力 [44][45] - 该实验代表从游戏环境测试向真实世界应用的重要转变类似DeepMind通过游戏推动AI发展的理念 [46] - 市场作为由信息和情感构成的生命系统为AI提供了近乎无限的训练数据环境 [46]