Grok4
搜索文档
马斯克身边华人离职,受OpenClaw刺激了?
虎嗅APP· 2026-02-12 08:08
文章核心观点 - 文章认为,xAI 在24小时内接连失去两位华人核心创始成员(吴宇怀和Jimmy Ba),可能反映了AI行业创新重心正从大型实验室向“超级个体”及小团队模式转移的趋势 [4][8][41][42] - 两位顶尖人才的离职声明均表达了对“AI赋能小团队”和“生产力百倍提升”时代的期待,与当前OpenClaw等项目所代表的“超级个体”浪潮相呼应 [9][12][28][36] - xAI的12人创始团队已有一半(6人)离开,其中包括近期因健康原因离职的杨格(Greg Yang),人才持续流失可能预示着行业方向的转变 [10][11][31] 关键人物离职详情 - **吴宇怀 (Tony Wu) 离职**:作为xAI创始成员,在Grok3和Grok4发布会中均坐在马斯克身旁的“C位”,于近期宣布离职 [5][7][11] - **吴宇怀背景**:90后,师从“AI教父”Geoffrey Hinton,是AI数学推理方向的顶尖青年学者,曾任职于OpenAI和Google DeepMind,在xAI负责将数学推理技术应用于Grok的训练与推理增强 [12][13][15][16][20] - **Jimmy Ba 离职**:在吴宇怀离职后数小时内宣布离开,是直接向马斯克汇报的五位核心成员之一,管理约1000人的团队,是深度学习领域核心研究者及大模型训练方法论奠基人 [8][21][22][24] - **离职原因推测**:外部猜测可能与工作强度或公司合并有关,但文章分析二人离职帖文更倾向于“xAI很好,但我另有所求”,他们基于对技术未来的判断做出了选择 [32][33][34] “超级个体”时代与行业趋势 - **“超级个体”概念**:指借助AI工具,个人或小团队能实现极高生产力,完成过去需要大公司资源才能完成的任务 [9][39][43] - **OpenClaw案例**:一个免费开源的自主AI代理,由奥地利开发者Peter Steinberger独立开发,项目在2026年1月底病毒式爆发,GitHub星标数几天内超过15万~16万 [38] - **OpenClaw的影响**:展示了“AI改进AI”的早期形态,让AI自主写代码、跑实验,部分自动化研发流程,被视为“递归式自我改进循环”的早期信号 [30][38] - **生产力跃升预期**:Jimmy Ba在离职声明中预测“在正确工具加持下生产力提升100倍”,并认为“递归式自我改进循环”可能在未来12个月内上线 [28][29] - **行业创新重心转移**:创新的重心正从少数巨头实验室向更分散的个体能力与开源生态外溢,一个人或小团队就能拉起整套AI研发流程 [42][43] 人才动向与xAI现状 - **xAI创始团队流失**:公司创建时的12名“创始团队”成员,加上最新离开的吴宇怀,已损失6人,占总数的一半 [11][31] - **人才竞争背景**:硅谷华人人才近年非常抢手,吴宇怀是其中格外突出的存在,他们的离职选择反映了顶尖人才对技术演进方向的敏感与追逐 [12][42] - **未来去向**:目前不清楚吴宇怀和Jimmy Ba是会创业还是成为“超级个体”,但在OpenClaw引发的背景下存在各种可能性 [35][36]
中国AI拒绝仰视
36氪· 2026-02-05 20:58
文章核心观点 - 文章通过对比中美科技企业(尤其是AI领域)在估值、资本逻辑和技术发展路径上的巨大差异,指出中国科技企业存在系统性低估,并认为其凭借扎实的技术突破、极致的工程效率和快速商业化落地能力,正在打破由美国资本主导的“生态系统定价”叙事,迎来价值重估的时代 [1][7][25][28] 估值差异现象 - **AI领域估值悬殊**:成立不到2年的xAI估值达2000亿–2300亿美元,远超中国所有AI创业公司估值总和;其旗舰模型Grok4性能不及中国开源模型DeepSeek V3.2和Kimi K2.5,但估值却是后两者加起来的好几倍 [1] - **机器人领域估值对比**:中国宇树科技估值约120亿人民币,美国Figure AI估值高达390亿美元(约2730亿人民币),两者相差超过20倍 [4] - **新能源汽车市值差距**:小鹏汽车整体市值仅为特斯拉的1.8%,尽管其创新产品人形机器人IRON被认为比特斯拉的Optimus更有看点 [5] - **二级市场估值鸿沟**:2025年第三季度,纳斯达克互联网龙头企业估值中位数达34倍,而港股科技企业估值中位数仅为18-19倍,流动性、投资者结构和风险偏好差异加剧了这一差距 [7] 估值差异的深层原因 - **美国资本逻辑:“生态系统定价法”**:美国资本市场基于企业未来能否成为颠覆性底层操作系统的潜力进行估值,愿意为哪怕仅有1%概率获得市场定义权支付惊人溢价 [9][10] - **中国资本逻辑:“效率定价法”**:中国资本市场的估值锚点在于技术落地效率、产业化速度和财报的可见性,更相信“眼见为实” [11] - **全球资本流向倾斜**:2025年1月至8月,全球主权财富基金参与了总价值464亿美元的AI风险投资交易,其中超过93%(433亿美元)流向了美国初创公司;中国AI产业2025年全年累计融资金额约为480亿人民币,资金来源更偏好能快速证明商业价值的项目 [12] - **历史路径依赖**:过去半个世纪美国企业连续三次定义科技范式(PC、内容、移动生活革命),强化了投资者对平台级技术的长期主义信仰 [14] 中国AI企业的技术突破与优势 - **技术落地与全球影响力**:中国开源模型在全球的下载量份额从2023年的25%迅猛攀升至2025年的65% [17];目前高达80%的AI创业公司开始使用开源模型,尤其是来自中国的开源模型作为开发基础 [24] - **底层算法创新**:DeepSeek首创MLA(多头潜在注意力机制),通过深度压缩KV缓存打破长文本生成内存瓶颈,其DeepSeek-MoE混合专家架构证明无需盲目堆砌算力也能实现性能跨越 [18];Kimi K2是全球首个在万亿级参数模型训练中成功跑通新型优化器Muon的模型,带动了其他公司采用该优化器 [18] - **技术前瞻性与实用性融合**:DeepSeek R1模型具备深度思考能力,尤其在数学推理上表现出色;Kimi K2.5具备智能体集群能力,可自主生成并动态调度多达100个不同专业背景的“虚拟分身”协同工作,并行处理1500个步骤,将AI提升为能进行深度协作的智能生产力平台 [20][21] - **发展路径**:中国AI企业正走出一条“以巧胜拙、以效领先”的独特路径,用1%的资源实现了90%的性能 [27] 价值重估的信号与未来展望 - **市场表现与资金动向**:自2025年1月以来,恒生科技指数累计涨幅显著;彭博行业研究报告指出,中国科技巨头指数在2026年的盈利增长有望迎来重大拐点,并可能超越“美股七巨头”,AI的普及或提升中国科技股估值15%—20% [26] - **核心竞争力被重新认识**:中国科技企业拥有的庞大工程师红利、完整产业链支撑、海量应用场景数据以及极致工程效率,所创造的确定性商业价值被认为比遥远的“生态系统”故事更为坚实 [26] - **叙事转变**:建立在沙滩上的美国叙事霸权正被技术实效浪潮冲刷,最高级的创新是让昂贵的技术变得人人可用,中国科技企业正迈向一个由技术实力定义的未来 [27][28] 美国AI企业的现状与挑战 - **xAI的财务状况**:尽管估值高达2300亿美元,但xAI每月现金消耗高达约10亿美元,主要用于训练大模型和建造超级计算机集群,本质上仍是一家处于纯烧钱阶段的公司 [15] - **商业化窘迫**:SpaceX收购xAI的操作,暴露了部分美国AI巨头在商业化落地和自我造血能力上的窘迫 [15]
2025人工智能发展现状报告:超级智能与中美大模型PK,限制与超越 | 企服国际观察
钛媒体APP· 2026-01-12 13:39
报告概览与核心预测 - 报告为《人工智能现状报告 2025》,长达300多页,由业界顶尖从业者评审,涵盖技术、产业、政策、安全、市场等多个维度[2] - 报告对下一年度做出多项预测:中国研究机构在前沿AI模型研究上将超越美国;开放式AI智能体(Agent)更值得获得进一步科研发现;基于AI生成欺诈视频的网络攻击将引发国际讨论;美国某头部AI研究架构将转向开源生态以获得政府支持[2] 技术发展与模型竞争 - 2024年末至2025年,随着GPT-o1发布,基于深度推理的大模型发展热潮兴起,多家厂商快速面世多个推理模型[3] - 以Meta为代表的科技巨头定义了“超级人工智能”(Superintelligence)一词,“通用人工智能”(AGI)成为过去时[3] - 顶尖模型仍保持闭源,如GPT-5、GPT-o3、Gemini 2.5 Pro、Claude 4.1 Opus、Grok4等,其中OpenAI的GPT-5在多个基准测试中保持领先[5] - 中国基础模型虽未取得突破性进展,但在开源模型领域颇具竞争力,DeepSeek、Qwen和Kimi等模型崛起,在推理和编程任务方面正逐步缩小与领先者的差距[6] - 开源为中国厂商提供了快速追赶的契机,越来越多的开发者选择基于Qwen进行开发[6] - 曾作为开源模型标杆的Meta Llama,其市场份额已从2024年末的约50%大幅下滑至目前的15%[6] - 近期推理模型的方法改进完全处于基准模型的误差范围内,可能意味着其进步并不真实,且强化学习带来的实际收益微乎其微,容易过拟合[9] - 前沿AI实验室正探索将强化学习、可验证奖励机制、可验证推理与新环境结合,赋予模型规划、反馈、自我修正及长期执行任务的能力[11] - AI研究正考虑利用小语言模型构建智能体,因其成本显著降低且能满足实际操作需求,策略是采用小语言模型构建有限的异构智能体架构,仅在必要时调用大模型[11] AI智能体与产业应用 - AI智能体框架发展迅速,LangChain仍是众多选择之一,各细分领域涌现数十种框架,如研发领域的AutoGen、camel,软件工程领域的MetaGPT等[13] - AI智能体的研究正赋予其记忆能力,实现从拓展上下文窗口到结构化、持久性终身记忆的转变,并延伸至动态整合、遗忘和反思[13] - AI在跨学科领域应用价值凸显,例如DeepMind基于Gemini 2.0构建的AI系统“Co-scientist”能生成、辩论并进化其假设生成与实验规划过程[13] - AI在物理世界涌现,如艾伦人工智能研究所的MolmoAct和谷歌的Gemini Robotics 1.5,能提升物理机器人的可解释性和可靠性[13] - AI产业应用迅速普及,AI优先企业营收远超其SaaS同行,在各个行业展现出发展势头[13] - 2025年,随着AI采用率上升,用户留存率上升,企业支出增加,特别是在音视频、虚拟形象、图像生成领域,AI公司收入有望实现爆发式增长[13] - 企业内部AI应用场景以内容生成、代码生成、研究及分析密集型任务最为常见[18] - 使用频率最高的工具包括ChatGPT、Claude、Gemini/Google和Perplexity,DeepSeek覆盖率略低但使用频率相对较高[18] - 在开发者工具中,Cursor、Claude Code和GitHub Copilot备受青睐;非编程工具中,Deep Research、ChatGPT、ElevenLabs、Perplexity和Claude使用频率非常高[18] - 对1183名AI从业者的调研显示,95%的专业人士现在在工作或生活中使用AI,76%的人自掏腰包购买AI工具,且大多数人表示生产力持续提高[25] 市场竞争、风险与基础设施 - AI编程工具可能主动覆盖企业生产代码,导致开发成果受损[21] - 从事AI编程开发的初创公司面临严峻的单位经济效益挑战,盈利受制于上游模型价格和竞争对手,可能采取突然提价或限制用户功能等措施[21] - 浏览器正成为AI应用的最新焦点和企业竞争的新战场,OpenAI、Google、Anthropic和Perplexity均推出了能在浏览器中导航和操作的助手功能,将浏览器重新定义为智能操作系统[21] - 谷歌在其产品中嵌入Gemini能力,其每月Token消耗数量在2025年同比增长了50倍,达到千万亿个Token[22] - 电力供应正成为制约AI发展的新因素,若电力供应不足,国家AI计划将面临崩溃风险,未来1-3年内美国几个主要地区可能会出现电力短缺[22] - 美国能源部警告,由于电力供应不稳定和AI需求增长,到2030年,停电频率可能会增加100倍[22] - 2024年末DeepSeek搅动市场,市场重新认识“杰文斯悖论”,即更便宜的智能带来更高的需求,进而提高对芯片的消耗[22] - GPU至关重要,英伟达市值突破4万亿美元,占据90%的AI研究论文市场份额,定制芯片与新云服务同步崛起[25] - 除英伟达外,上市公司Coreweave、Nebius以及私企Lambda、Crusoe因客户对优惠价格、灵活合同条款及AI专用软件套件的需求增加而实现快速增长[25] - TPU和AMD的GPU普及程度并不高[25] 劳动力市场影响 - AI主要挤压入门级岗位市场,在软件和客服领域,这类岗位极易受AI技术影响,其招聘岗位持续下降,经验丰富的劳动力暂时保持工作稳定性[25] - 研究发现当前劳动力市场变化早于2022年ChatGPT的问世,AI自动化目前并未削弱经济领域对认知型劳动力的需求[28] 政策、安全与监管 - 美国推行“美国AI优先”战略并调整出口政策,中国加速推进自主研发与本土芯片制造,中美AI竞赛愈演愈烈[28] - 2025年,特朗普政府将人工智能安全研究所更名为人工智能标准与创新中心,并启动了5000亿美元的“星门计划”,同时美国政府发布《人工智能行动计划》力求保持其全球主导地位[28] - AI芯片出口限制政策用“反复”形容,美国政府需在国家安全目标与供应链依赖、供应商游说间寻求平衡,英伟达和AMD成为政治焦点,英伟达在中国市场并未达到稳定状态[28] - 美国监管措施在巨额投资浪潮中被边缘化,国际外交陷入僵局,《人工智能法案》实施遭遇重重阻碍[31] - AI数据中心建设陷入邻避主义瓶颈,美国公众对新建大规模数据中心的反对声日益高涨[33] - 政府《人工智能行动计划》提及需自主AI领域“基础科学”,但其核心研发资金远低于专家建议的2026年320亿美元投资目标[33] - 硅谷科技巨头采取“逆向”并购政策:通过快速引进人才(创始人及团队高薪)以规避并购限制,同时保留原业务精简的公司转型拓展小众市场,例如微软收购Inflection,谷歌收购Character AI,亚马逊收购Adept,Meta收购Scale AI[33] - 美国联邦贸易委员会对这类“逆向”并购行为的担忧日益加剧[35] - 美国就AI安全相关的政策议题发生转变,加之实验室间商业竞争激烈,某些安全规程已被列为非优先事项[36] - 外部安全机构年度预算甚至不及顶尖实验室单日总支出,曾以安全为核心的机构开始将重点转向产品化[36] - 报告估算,外部AI安全研究投入仅约1.3亿美元,而同期全球AI研发支出接近千亿美元,比例极低[36] - AI实验室为防范生物安全风险和网络攻击部署了空前防护,部分实验室却因错过自我设定的截止日期或悄然放弃测试方案[36] - 网络攻击能力每五个月翻一番,远超防御措施的更新速度,犯罪分子利用AI智能体的勒索软件已渗透至世界500强企业[39] - 涉及生成式AI的安全事件正呈急剧增长态势,大量报告事件涉及AI换脸技术,与大模型的滥用密切相关,AI代理正日益成为网络安全防御的重大挑战[39]
马斯克Grok5挑战人类电竞高手 约战《英雄联盟》顶尖战队
搜狐财经· 2025-11-26 10:41
事件核心 - 埃隆・马斯克宣布旗下xAI公司研发的AI大模型Grok5将于2026年挑战《英雄联盟》顶级人类战队,以验证其通用能力 [1] - 挑战将在模拟人类生理与操作限制的条件下进行,包括仅通过摄像头观察显示器(可视范围不超过视力正常人类)以及响应延迟与点击率不得超过人类水平 [1] - 行业专家提议增加《星际争霸》作为比赛项目,马斯克与Grok官方账号均表示接受,显示出行业互动与对通用人工智能边界探索的共同兴趣 [1] Grok5模型技术规格与进展 - Grok5的发布计划已调整至2026年,较原计划延后约一个季度 [1] - 模型参数规模达6万亿个,是当前Grok3、Grok4的两倍,也是主流顶尖模型的30倍左右 [1] - 采用多模态MoE(混合专家)架构,原生支持视频理解功能,可解析长视频并回答时序问题 [1] - xAI正扩建孟菲斯超算节点,计划将GPU数量增至150万颗,以支撑模型训练需求 [1] 挑战的战略意义与行业背景 - 马斯克曾公开表达对Grok5的信心,称其“将在各项指标上遥遥领先其它人工智能,成为世界上最智能的人工智能” [2] - 选择《英雄联盟》作为挑战项目,与该游戏对策略规划、实时决策及多角色协同的高要求相关,这类复杂场景被视为检验通用人工智能(AGI)的重要标尺 [2] - 行业分析指出,此次挑战更侧重在模拟人类限制下验证模型的类人认知与决策能力,而非依赖过往AI在竞技游戏中常见的算法与硬件优势 [2] 当前信息状态与后续计划 - 目前xAI尚未披露挑战的具体时间、对阵战队及赛事规则细节 [2] - 相关信息预计将随2026年Grok5模型的发布而逐步公布 [2]
中兴发了一篇论文,洞察AI更前沿的探索方向
机器之心· 2025-11-26 09:36
文章核心观点 - 当前基于Transformer架构的大模型面临算力消耗大、效率低、与物理世界脱节等核心瓶颈,通用人工智能的实现路径亟待突破 [2] - 行业正从“规模竞赛”转向“效率革命”,探索超越自回归Transformer的新计算范式,特别是物理第一性原理模型与新型硬件的融合 [2][38] - 中兴通讯的论文为下一代AI大模型计算范式提供了重要参考,其自身在微架构创新和新型算法硬件探索方面的实践抢占了技术高地 [2][36][38] LLM现状及瓶颈 - 大模型性能遵循规模扩展定律,依赖计算量、参数量和训练数据量的堆叠,但训练沉没成本极高,例如Grok4模型在20万卡集群耗时半年才完成预训练 [4][5] - Transformer架构计算效率低,算术强度仅为2,远低于卷积神经网络的数百,导致模型算力利用率低,并高度依赖先进工艺和高带宽存储器 [6] - 随着模型参数和上下文长度增加,Transformer架构瓶颈与摩尔定律放缓的矛盾将更突出,面临“功耗墙”和“内存墙”挑战 [7] - 现有LLM存在幻觉、可解释性差等问题,其“Next Token Prediction”核心被部分学者认为难以真正理解物理世界,智能进步严重依赖“暴力缩放” [9] LLM自回归模式的工程改进和优化 - 算法层面通过优化注意力机制(如GQA、MLA、Flash-Attention)和采用低精度量化(如4-bit)来提升效率,但量化会引入误差 [13][14] - 循环递归参数复用架构(如Universal Transformer)通过参数共享提升算术强度,但其大规模扩展后的能力尚不明确 [15] - 集群系统采用张量、数据、流水线和专家并行等范式,混合专家模型可将计算量缩减为原来的1/32,预填充和解码阶段分离部署可提升硬件利用率 [16] - 端云AI协同搭建“快慢思考”系统,端侧处理实时推理,云端处理复杂任务 [17] 硬件工程创新 - 微架构领域专用化,引入异步数据搬移和混合精度训练;通过Scale Up和Scale Out域划分进行互联优化,Scale Up域采用Nvlink提供200纳秒超低延迟 [18] - 光电混合集群和“存算一体”等新型计算范式是构建万卡以上集群、突破“内存墙”的关键技术 [18][19] - 基于光IO技术重构计算体系结构和基于3D DRAM构建新型内存体系是两大前瞻性硬件工程技术 [21] - 万卡以上集群部署需通过算网存仿真平台进行优化 [20] 下一代AI大模型计算范式演进和展望 - AGI的实现需根本性变革,产业界正探索不以Next-Token Prediction为核心的新范式,基于能量、动力学等第一性原理的模型成为重要方向 [23][24] - 新模型发展分为两类:一是改进的Transformer架构,如Diffusion LLM可将推理吞吐量提升10倍以上,能耗减少至1/10;二是基于物理第一性原理的架构,如液态神经模型和基于能量的模型 [26][27][28] - 未来AI计算更受能耗限制,催生三大新型计算范式:物理原理启发(光计算、量子计算、电磁计算)、基于材料特性(概率计算、吸引子网络、热力学计算)和生物启发(类脑计算、DNA计算)的架构 [29][30][31][32][33][34] 中兴通讯的探索与实践 - 公司在微架构层面进行创新,如利用8T SRAM数字存内计算技术实现高能效AI加速器,其XPU-PIM异构架构在能效和吞吐量上相比常规GPU有数量级提升 [36] - 公司探索从物理第一性原理出发的新路线,如循环式Transformer架构可在减少超50%参数量的同时保持模型表达能力,基于FPGA的稀疏玻尔兹曼机将训练时间从超过10小时缩短至5分钟,加速超2个数量级 [36][37] - 公司在光连接、新型内存等支撑性工程技术以及大规模仿真平台等架构技术方面展开前瞻性研究 [37]
The latest circular AI deal stars Anthropic, Nvidia, and Microsoft
Business Insider· 2025-11-19 00:05
合作核心内容 - Anthropic计划在微软Azure云平台上投入300亿美元用于计算资源以扩展其Claude AI模型该计算资源将由英伟达提供[1] - 作为交易的一部分英伟达承诺向Anthropic投资高达100亿美元微软将投资高达50亿美元[1] - Anthropic承诺额外承包高达十亿瓦特的算力容量这些算力将由英伟达的Grace Blackwell和Vera Rubin系统构成[3] 战略意义与市场定位 - Anthropic模型将成为微软Azure上的一个选择并且是首个在三大主要云平台上都可用的模型[2] - 微软作为OpenAI的早期投资者近期完成了与这家前沿模型制造商的财务重组并与埃隆·马斯克的xAI合作在其Azure AI Foundry上托管Grok4[2] 行业背景与市场反应 - 该公告发布之际华尔街对人工智能泡沫的担忧持续存在估值和支出承诺不断膨胀[4] - 英伟达将于周三公布财报其业绩被视为市场对AI前景的晴雨表受到密切关注[4] - 作为全球首家市值达到4万亿美元的公司英伟达股价在过去五天内下跌了约7%[4]
资源不到万亿 OpenAI 的 1% ,Kimi 新模型超越 GPT-5
Founder Park· 2025-11-07 20:00
产品发布与核心能力 - 公司推出开源模型K2 Thinking,是其迄今为止最强的开源思考模型[2] - 模型采用1T参数、MoE架构、32B激活参数、原生INT4量化,并支持256k上下文长度,更好支持国产GPU[3] - 在“人类最后的考试”基准测试中取得44.9%的SOTA成绩,表现超过同类型闭源模型[10] - 模型无需人工干预,可自主实现高达300轮的工具调用和多轮思考能力,解决更复杂问题[6] 技术路径与架构演进 - 从K2到K2 Thinking,技术路径从“模型即Agent”演进到“模型即Thinking Agent”[6] - 模型支持多步工具调用,需将思考内容返回模型进行多次推理以保持连贯性,此能力与Claude的“扩展思考”类似,但OpenAI的GPT系列和Google的Gemini模型尚未支持[21][22][23] - 公司选择先做“交互”再做“反思”的技术范式,重点是多轮工具使用和测试时扩展[16][17][18] - 此技术进展被视为实现AI L3级别的重要突破[20] 行业竞争与资源对比 - 公司估值约为33亿美元,而OpenAI估值为5000亿美元,Anthropic估值为1830亿美元,Grok估值为2000亿美元[28][26] - 公司员工约200人,训练成本约460万美元,而xAI拥有20万块H100 GPU集群,员工超1200人,Grok 4训练成本可能达4900万美元[28][29] - 中国基础模型公司面临资源稀缺挑战,但公司用不到1%的资源实现了对国际巨头的技术超越[29] - 在HLE测试集上,旗舰模型成绩从最初不到20%提升至目前超过40%,显示模型能力持续进步[13]
全球首个AI投资大赛落幕:中国模型全部盈利,美国模型全部亏损
新京报· 2025-11-04 13:47
比赛概况 - 首个AI大模型实时投资比赛“Alpha Arena”于11月4日结束,历时17天,初始资金为一万美元 [1] - 参赛模型包括来自中国的DeepSeek v3.1、Qwen3-Max以及来自美国的GPT-5、Gemini2.5Pro、Claude Sonnet4.5、Grok4,共六个顶尖大模型 [1] - 比赛在真实市场进行,模型无人工干预自主决策交易,根据盈亏决出冠军 [1] 比赛进程与策略 - 比赛前半段DeepSeek v3.1处于领先位置,Grok4通过激进策略一度将差距缩短至1美元 [1] - 10月21日至22日成为转折点,Grok4和Claude Sonnet4.5收益大幅下滑由盈转亏,当日所有六个模型收益率一度全部告负 [1] - DeepSeek v3.1和Qwen3-Max在关键时刻自动改写投资策略,在其他模型持续亏损时脱颖而出 [2] 最终排名与业绩 - Qwen3-Max以12200美元资产和超过20%的收益率夺得冠军,DeepSeek v3.1以10490美元资产获得第二名 [2] - 两家中国模型成为唯二盈利的模型,四大美国顶尖模型全部亏损 [2] - 参赛模型形成三大阵营:两家中国模型位列第一梯队多次互换第一;Claude Sonnet4.5和Grok4维持第二阵营略有盈利但整体亏损;GPT-5和Gemini2.5Pro长期亏损垫底,其中GPT-5亏损超60% [2]
Qwen 3 Max领跑“AI投资实战赛”:阿里通义千问在Alpha Arena跑赢GPT-5与Gemini
经济观察网· 2025-10-23 15:27
竞赛概况 - 由美国研究实验室nof1ai发起名为Alpha Arena的AI投资实战竞赛旨在观察AI自主交易能力[1] - 竞赛吸引六大主流AI模型参赛包括DeepSeek GPT5 Gemini25Pro Claude Sonnet45 Grok4与阿里的Qwen3Max[1] - 每个模型以1万美元初始资金在去中心化交易所Hyperliquid上进行永续合约交易收益率是唯一评判标准且所有交易全程公开[1] 参赛模型表现 - 阿里旗下Qwen3Max暂列收益榜首账户价值为11957美元总收益为1957美元收益率为1957%[3] - DeepSeek Chat V31排名第二账户价值为11392美元收益率为1392%[3] - Grok 4与Claude Sonnet 45分别排名第三和第四收益率分别为08%和-1529%[3] - Gemini 25 Pro与GPT 5表现不佳收益率分别为-5755%和-6538%亏损均超过50%[2][3] Qwen3Max领先策略分析 - Qwen3Max注重机会捕捉与风险平衡在市场波动期快速介入并严格止损保持较低风险敞口[2] - 该模型共完成8次交易频率高于平均水平平均持仓时间约7小时显示出较强的短期响应能力[2] - 其收益率从早期的843%提升至1341%实现稳定增长并显著跑赢同期仅录得145%收益的比特币持有策略[2] 不同模型策略分化 - Qwen3Max通过实时强化学习调整策略使收益曲线呈现稳定上行趋势基于反馈信号的自适应机制是其优势[1][4] - Gemini25Pro与GPT5策略相对激进杠杆倍数较高因入场时机偏差导致大幅亏损[2] - DeepSeek V31Chat与Grok4走势接近初期亏损后迅速回升而GPT5与Gemini25Pro则先涨后跌最终在盈亏平衡区间震荡[2] 技术路径与行业影响 - 与传统依赖历史数据的量化策略不同本次竞赛展现出强化学习与实时决策能力的优势模型通过市场反馈持续优化参数[4] - Qwen系列模型加快多模态能力建设涵盖语言视觉语音编程安全等技术体系从单一任务模型向协同学习架构演进[4] - 分析认为强化学习与实时数据处理能力的提升正持续拓宽AI在投研交易决策及风险管理等环节的应用边界[7]
1万美元AI大模型炒币竞技,领先的果然是它
搜狐财经· 2025-10-21 18:21
实验概述 - 国外金融市场人工智能实验室nof1发起名为“Alpha竞技场”的实验,使用6个人工智能模型进行自主交易[2] - 每个模型的初始交易额为1万美元,在真实市场中进行真金白银的操作,并设有真实基准[2] - 第一季测试将于11月3日结束[11] 模型表现排名 - 截至北京时间10月21日上午11点20分,DeepSeek以余额12000+美元排名第一,Claude以11800美元排名第二,Grok4以11500美元左右排名第三[2] - GPT5余额为6600美元,Qwen3 Max余额为9200多美元,Gemini2 5 Pro余额为6170多美元[2] 关键交易表现与策略 - DeepSeek在上周末实现36%的大幅增长,可能源于对国际形势的精准预判[4] - DeepSeek的收益可能很大程度上来自于做空比特币,而Grok4是最大化做多比特币,Qwen只做多比特币,因此在比特币下跌后亏损不少[8] - 在10月11日的测试实验中,Grok4曾遥遥领先,当时起始金额为200美元,随后才开始起始1万美元的真实竞赛[8] 模型能力评估 - 从创始人角度认为,DeepSeek和Grok似乎对市场的微观结构有更好的背景认知[6] - 创始人在10月19日分享了几大模型交易的逻辑[5]