多模态推理
搜索文档
消息称 DeepSeek V4 模型打破惯例:华为等国内厂商可早期访问,不让英伟达 AMD 先用
新浪财经· 2026-02-27 18:36
DeepSeek V4模型发布策略与行业动态 - DeepSeek在即将进行重大模型更新前,未向美国芯片制造商英伟达和AMD展示其即将推出的旗舰模型,这打破了行业标准做法[1][4] - 相反,DeepSeek V4向包括华为技术有限公司在内的国内供应商提供了早期访问权限[1][4] - AI开发者通常会将主要模型的预发布版本分享给英伟达和AMD等芯片制造商,以确保其软件在广泛使用的硬件上高效运行[1][5] DeepSeek V4模型技术规格与测试进展 - 消息源报道称DeepSeek正在测试V4 Lite模型,代号为"Sealion-lite",上下文窗口为100万tokens,并原生支持多模态推理[1][5] - DeepSeek更新后已开始灰度测试最高1M(百万)Token的上下文长度[2][5] - 最新DeepSeek的知识库已经更新到2025年5月,在非联网状态下可准确输出2025年4月的新闻[2][5] 行业合作模式与供应链变化 - DeepSeek之前曾与英伟达的技术人员密切合作[1][5] - 对于其即将推出的模型,DeepSeek没有向英伟达和AMD提供访问权限,而是给予包括华为在内的中国厂商几周的时间来适配其芯片[1][5] - 英伟达和AMD拒绝评论相关报道,DeepSeek和华为也未回应评论请求[1][5]
ICLR 2026 | 7B小模型干翻GPT-5?AdaResoner实现Agentic Vision的主动「视觉工具思考」
机器之心· 2026-02-15 14:46
核心观点 - 多模态AI处理图像的方式正发生根本性转变,从静态识别升级为具备“思考-行动-观察”循环的主动调查模式[7] - 学术界与工业界同时押注“主动工具使用”范式,这正成为多模态推理的主流方向[11] - AdaReasoner的核心价值在于提出了一套训练方法,使开源小模型能习得动态编排工具进行多步推理的能力,而不仅仅是验证范式有效[11] 技术范式与行业趋势 - Google为其轻量级模型Gemini 3 Flash引入“Agentic Vision”能力,标志着多模态AI从“匆匆一瞥”式的一次性处理,转变为可迭代的主动推理模式[7][8] - AdaReasoner与Google Agentic Vision实现了几乎相同的“Think-Act-Observe”范式,但前者定位为开源、可复现的学术研究,后者为闭源产品级集成[10] - 多模态推理的痛点在于“感知不够精确”与“多步推理”互相制约,导致模型在细节上容易进行猜测[13] - 该范式的核心是将工具使用本身作为一种需要学习的通用推理技能,让模型学会在何时、如何使用何种工具[16][17] AdaReasoner训练方法设计 - **Tool Cold Start (TC)**:训练数据中刻意包含“犯错-修正”场景,让模型学习工具选择、调用时机及失败处理,提升鲁棒性[20][21] - **Tool-GRPO (TG)**:通过专门的强化学习优化多轮工具编排过程,并将工具使用训练为“不确定时的可靠后备”,而非强制流程[23][24] - **Adaptive Learning (ADL)**:通过工具名、参数名随机化和工具描述改写,迫使模型学习工具语义而非死记硬背名称,提升泛化能力[25] 性能表现与关键数据 - **整体提升**:AdaReasoner-7B模型相对于基础模型,在选取的8个基准测试上平均性能提升**+24.9%**[31] - **关键任务表现**: - 在**VSP**任务上,基础模型得分为**28.09**,经过TC+TG训练后达到**97.64**[34] - 在**Jigsaw**任务上,基础模型得分为**45.70**,经过TC+TG训练后达到**96.60**,超过了GPT-5的**80.10**[34] - 在**VSP Navigation**子任务上,引入A*工具并通过RL训练后,性能从**44.83**提升至**96.33**[37] - **工具使用效率**:在Jigsaw任务上,模型平均每样本调用工具**3.54**次,工具执行成功率高达**98.50%**,最终任务准确率达**88.60%**[47] 模型习得的自适应行为 - **采纳有用工具**:在强化学习阶段,模型能逐步提高对新引入工具(如A*)的调用频率并掌握其用法[37] - **丢弃无关工具**:模型能学会抑制对当前任务无用甚至有害的工具调用,例如在Verify任务中压制A*工具的使用,使性能维持在**99.20**的高分[41][42] - **调节调用频率**:模型能根据子任务需求动态调整工具调用强度,例如Point工具在Navigation任务中调用更频繁(约**3.2**次/样本),在Verification任务中则更克制(约**1.0**次/样本)[44] 泛化与稳健性 - 通过ADL训练,模型能够将从一个任务(如Jigsaw)上学到的智能体规划能力,迁移到监督微调阶段未见过的其他任务上,提升其表现[49] - 当工具规划能力足够好时,模型性能的瓶颈将从“模型规模”部分迁移到“工具效用与工具规划能力”本身[36] - 这套方法对于参数有限的小模型尤为重要,“会用工具”成为最直接的能力放大器[52]
开源多模态推理「破壁」时刻:MMFineReason助力4B逆袭30B
机器之心· 2026-02-13 13:08
文章核心观点 - 开源多模态模型在复杂推理任务上与顶尖闭源模型存在差距,核心瓶颈在于高质量、思维链密集的推理数据匮乏 [2] - 上海AI实验室OpenDataLab团队开源的MMFineReason框架,通过数据中心的开放方法,成功缩小了这一差距 [2] - 该框架包含一套全流程开源、可复现的多模态推理数据合成Pipeline,并开源了包含1.8M高质量样本、5.1B Token的大规模数据集 [2] - 实验证明,基于高质量数据训练的小参数模型(如4B、8B)在推理能力上可以实现“以小博大”,甚至超越参数规模大得多的模型 [5][8] - 这标志着多模态模型进入了“以小博大”的新阶段,是Data-Centric方法论的胜利,而非模型规模或架构的胜利 [5][23] 多模态推理数据的现状与瓶颈 - 现有开源多模态数据以简单VQA和自然图像为主,对高推理价值的STEM图表、逻辑谜题、复杂视觉符号等数据稀缺且标注成本极高 [6] - 现有推理数据存在推理过程短、模版化,标注粒度不足、缺乏中间验证、视觉与逻辑推理割裂等问题 [6] MMFineReason框架的性能表现 - 基于Qwen3-VL-4B训练而成的MMFineReason-4B模型,其推理能力超越了Qwen3-VL-8B-Thinking,性能直逼30B参数规模的Qwen3-VL-30B-A3B-Thinking [5] - 基于同尺寸底座训练的MMFineReason-8B模型,直接击败了Qwen3-VL-30B-A3B-Thinking和Gemini-2.5-Flash,并向GPT5-mini-High及Qwen3-VL-32B-Thinking等顶级模型发起冲击 [8] - 这种“跨级碾压”的性能跃迁几乎完全源于数据层面的变化,尤其是推理数据的结构化程度与单位样本中的有效推理密度 [8] - 通过难度感知过滤,仅使用总量7%(约123K)的高难度精选子集数据,即可媲美全量1.8M数据相当的性能表现,实现了极高的数据转换效率 [8] MMFineReason数据生产管线 - 构建了一套完全开源、透明且高效的Pipeline,全流程100%基于开源模型 [12] - 主要通过三个阶段实现高质量数据生产:数据标准化、推理蒸馏、双重过滤 [17] - 最终产出三个高质量数据集:MMFineReason-1.8M(正确全量)、MMFineReason-586K(正确且去掉过于简单样本)、MMFineReason-123K(正确且最困难样本) [14] MMFineReason数据集的核心特征 - 专为“深度推理”打造,是一个“硬核思维训练场”,平均思维链长度达到2,910 tokens,是同类数据集HoneyBee的2.7倍 [16][18] - 在领域分布上深耕高难度逻辑腹地,拒绝简单样本:数学领域占比79.4%,科学数据占比13.8%,谜题与游戏数据占比4.6% [19] - 高强度训练带来了“协同提升效应”,在STEM和逻辑难题上的深度钻研,反而同步增强了模型在一般性VQA任务上的表现 [21]
雷军官宣小米多篇最新研究成果成功入选ICLR 2026国际顶级会议
搜狐财经· 2026-02-03 11:13
人工智能学术研究进展 - 小米公司团队在人工智能领域的多篇最新研究成果成功入选国际顶级会议ICLR 2026,研究方向涵盖多模态推理、强化学习、GUI Agent、端到端自动驾驶以及音频生成等多个前沿领域 [1] 强化学习效率优化框架 - 针对多模态大语言模型强化学习训练中存在的“优势坍缩”和“轨迹沉默”现象导致的效率低下问题,公司提出了名为Shuffle-R1的高效强化学习框架 [3] - Shuffle-R1框架包含两项核心设计:成对轨迹采样以提高梯度信号质量,以及基于优势的批次重排序以增加有价值轨迹的曝光率 [4] - 实验结果表明,Shuffle-R1在增加极少计算开销的前提下,在多个多模态推理基准上稳定超越了多种强化学习基线方法 [4] 移动GUI Agent过程监督框架 - 针对Mobile GUI Agent在真实落地中面临的高质量思考轨迹稀缺和中间推理步骤监督成本高的瓶颈,公司提出了MobileIPL迭代偏好学习框架 [7] - MobileIPL包含Thinking-level DPO和Instruction Evolution三阶段指令演化机制,旨在以高效、可扩展的方式实现对模型思考过程的监督与优化 [8] - 该框架在AITZ、AMEX、AndroidControl等主流GUI-Agent基准测试中取得了SOTA(最先进水平),并在分布外场景中展现出更强的泛化鲁棒性与稳定性 [8] 小语言模型推理能力增强框架 - 为解决小语言模型在复杂推理和检索任务中性能受限的问题,公司提出了名为FutureMind的模块化推理框架,该框架无需额外训练和增加参数 [12] - FutureMind通过自适应知识蒸馏从大型语言模型中提炼高级认知能力,构建了由问题分析、逻辑推理、策略规划与检索指导模块组成的动态推理流水线,并辅以三种不同的检索范式 [12] - 在多跳问答基准测试上,FutureMind超越了如Search-o1等多项强基线模型,在不同模型架构和规模下均在无需额外训练的前提下实现了SOTA水平 [13] 全模态推理能力迁移框架 - 针对全模态大模型“感知强、推理弱”以及通过训练提升推理能力成本高昂的挑战,公司提出了名为ThinkOmni的Training-free(免训练)框架 [16] - ThinkOmni框架旨在将成熟的文本推理能力“零成本迁移”至全模态场景,核心组件包括利用现成的推理大模型进行指导的解码过程以及自适应平衡感知与推理信号的策略 [16][17] - 该框架在六个多模态推理基准上均展现出一致的性能提升 [17] 移动Agent评估基准 - 公司推出了名为SMAN-Bench的跨系统、多维度移动Agent评估基准,以解决现有评测中在线环境不稳定与离线轨迹过于单一的对立难题 [20] - 该基准基于大规模图结构语料Mobile3M构建,首创了基于槽位的指令生成方法,并引入了真实广告噪声与交互式模糊指令,以构建高保真的移动操作模拟环境 [20] - SMAN-Bench为量化评估多模态大模型在复杂长程任务中的规划能力、抗干扰鲁棒性及主动交互智能提供了实验平台 [20] 高效音频生成框架 - 针对现有音频生成方法中GAN收敛缓慢和扩散类方法推理计算开销大的问题,公司提出了名为Flow2GAN的两阶段音频生成框架 [23] 1. 该框架首先利用改进的Flow Matching预训练学习生成能力,随后通过轻量GAN微调实现高效的少步乃至单步推理 [24] 2. 改进包括将目标函数重构为端点估计以避免优化困难,以及引入基于谱能量的损失缩放策略以强化对低能量区域的建模 [24] 3. 此外,设计了一种多分支网络结构在不同时间-频率分辨率下建模,提升了音频建模能力 [24] - 实验结果表明,Flow2GAN能够从Mel频谱或离散音频token中生成高保真音频,在生成质量与计算效率的权衡上优于现有最先进的GAN及Flow Matching方法 [24]
让大模型“吃一堑长一智”,南理工百度等提出模型记忆新方法
量子位· 2025-12-17 17:07
文章核心观点 - 南京理工大学与百度等单位联合提出了一种名为ViLoMem的新方法,该方法通过构建视觉流与逻辑流分离的双流语义记忆,使多模态大模型能够从错误中学习,有效解决了模型“记不住教训”的问题[1] - ViLoMem是一个即插即用的框架,无需微调模型参数,即可在多模态推理基准上稳定提升模型性能,并为构建能从经验中学习的多模态智能体提供了新路径[5] 技术原理与框架 - ViLoMem的核心思想是将“看错了什么”(视觉错误)和“想错了什么”(逻辑错误)分开记忆,模仿人类的多模态整合语义记忆方式[14][16] - 框架包含记忆生成与记忆检索两个关键部分[18] - 记忆生成:当模型解题失败时,并行启动视觉分析模块与逻辑分析模块,分别生成结构化的视觉指南和逻辑规则[19][20][21] - 记忆检索:采用不同的策略。视觉记忆采用两阶段检索(图像级相似度搜索与问题语义过滤)并生成问题感知的注意力热力图;逻辑记忆则基于对题目的理解进行语义匹配检索[26][27][28][29] - 通过“增长-精炼”机制控制记忆规模,新记忆会与已有记忆进行相似度匹配,或合并为更通用的规则,或创建新记忆槽位,避免记忆无限膨胀[23][24] 性能提升效果 - 在六个多模态基准测试中,ViLoMem使GPT-4.1在MathVision上的得分提升+6.48,在MathVista上提升+2.61[2][31] - 对于小模型,Qwen3-VL-8B在MMMU基准上提升+4.38,在RealWorldQA上提升+2.74[2][31] - 从任务类型看,数学与视觉密集任务收益最大,因为双流记忆能阻断视觉错误向推理链条的级联传播[31][33] - 从模型规模看,小模型提升幅度更大[31] 知识迁移与蒸馏效应 - ViLoMem支持跨模型记忆迁移,即小模型可以直接使用大模型生成的记忆[34] - 实验显示,Qwen3-VL-8B使用大模型(Qwen3-VL-235B)的记忆后,在MMMU上的得分从69.90提升至71.26,在MathVista上从77.87提升至79.20[36] - 这提供了一种“免微调的知识蒸馏”路径,使强模型的经验能直接赋能弱模型[3][36]
Transformer作者爆料GPT-5.1内幕,OpenAI内部命名规则变乱了
36氪· 2025-12-01 09:25
AI发展现状与趋势 - AI发展并未放缓,而是一条非常平滑的指数曲线,类似于摩尔定律 [4][7] - 外界感觉“变慢”的原因是AI底层范式已从预训练转向推理模型,这是继Transformer后的关键转折 [4][7] - 预训练处于S曲线上升后期,而推理模型仍处于发展初期,进步速度会相当快 [7][10] 推理模型的技术演进 - 推理模型本质是在给出答案前进行思考(思维链),允许使用工具如浏览网页 [11] - 相比于传统梯度下降训练,推理模型更多使用强化学习,通过奖励机制推动模型获取更好答案 [11] - 模型通过强化学习学会纠正自身错误,未来将转向更复杂的强化学习,融入更多人类偏好 [11] GPT-5.1版本更新实质 - GPT-5.1并非小版本更新,而是一个巨大的稳定性迭代,改进集中在后训练阶段 [14][15] - 改进包括增加安全性、减少幻觉以及添加多种风格选择(如书签子、专业) [15] - 版本命名规则改变,以用户体验为导向,内部通过蒸馏技术整合多项目成果,缩短迭代时间 [17] 模型能力与挑战 - GPT-5能解决奥林匹克竞赛题,但在小学一年级数奇偶数题目上错误百出,忽略共享点导致误判 [19][20] - 短板在于缺乏足够多模态能力,未能将推理经验迁移到相似场景 [20] - 后续训练将强化多模态推理和上下文推理迁移能力 [20] 未来AI突破方向 - 多模态推理将成为下一个突破点,目前处于起步阶段,强化学习将助其提升 [4][13] - 家用机器人可能成为继ChatGPT后最直观的AI革命,取决于多模态能力和通用强化学习的进步 [34][36] - 硬件基础迅速成熟,将协同多模态和物理世界推理能力,实现家用机器人能力跃迁 [36] AI对工作的影响 - AI不会让人类完全失去工作,高风险、高关注度场景仍倾向于依赖人类专家经验 [32][34] - 基础工作的可替代性变高,工作内容将出现变化,但人类不会无事可做 [34] Transformer诞生与OpenAI文化 - Transformer八位共同作者从未在物理房间共同出现,但从不同角度共同构建了模型 [26] - 当时业界不认同用同一模型处理多任务的想法,但团队坚信并证实了其正确性 [26] - OpenAI组织架构灵活,根据项目自发组队,内部GPU资源有限,项目间存在资源竞争 [29]
Transformer作者爆料GPT-5.1内幕!OpenAI内部命名规则变乱了
量子位· 2025-11-30 19:30
AI发展现状与趋势 - AI发展并未放缓,而是呈现平稳的指数级增长,类似于摩尔定律,其进步由新技术、算力提升和工程优化共同驱动 [13][15][16][17] - 行业底层范式正经历从预训练模型向推理模型的静悄悄但本质性的转换,其意义不亚于Transformer的诞生 [1][2][18][19] - 外界感觉进展变慢的原因包括:预训练处于S曲线上升后期,投入产出比下降;行业重心转向更小、更便宜但质量相当的模型 [19][21] 推理模型的技术特点 - 推理模型的核心在于思维链,即在给出答案前先进行思考,并可使用工具(如浏览网页)以提升答案准确性 [23][27][28] - 训练方式从传统的梯度下降转向强化学习,通过奖励机制和细致的数据准备来优化模型,未来将应用更复杂的强化学习 [29][30] - 多模态推理是下一个突破点,目前仍处于起步阶段,强化学习将助力其进一步提升 [9][32] OpenAI模型迭代策略 - GPT-5.1并非简单的小版本迭代,而是一次巨大的稳定性迭代,改进集中于后训练阶段,如增强安全性、减少幻觉、增加风格选择 [34][36] - 版本命名规则转变为以用户体验为导向,例如GPT-5为基础模型,GPT-5.1为能力更优版本,Mini为更小更快的版本 [38] - 内部采用多项目并行(强化学习、预训练等)再通过蒸馏技术整合的灵活开发模式,大大缩短了模型迭代时间 [38] 模型能力与挑战 - 模型能力实现质的飞跃,例如ChatGPT从直接记忆答案转变为主动推理,Codex已改变程序员的工作流程 [23][24] - GPT-5.1在复杂任务(如奥林匹克竞赛题)上表现优异,但在需要多模态推理和上下文迁移的简单任务(如奇偶数判断)上仍存在明显短板 [41][42] AI未来应用展望 - AI不会让人类完全失去工作,高风险、高关注度场景仍将依赖人类专家,但基础工作的可替代性将提高,工作内容将发生变化 [10][62][65][66] - 家用机器人被视为继ChatGPT之后最直观的AI革命,其进展取决于多模态能力、通用强化学习和物理世界推理的突破 [11][67][69] Transformer与OpenAI背景 - Transformer的八位共同作者从未在同一物理房间共同工作,当时业界对单一模型处理多任务的想法普遍不理解 [50][51] - OpenAI内部组织架构灵活,根据项目自发组队,但存在GPU资源竞争,预训练消耗资源最多,其次是强化学习和视频模型 [55][56][57]
深夜,3万亿美元巨头大涨
上海证券报· 2025-11-19 23:45
公司股价表现 - 谷歌美股于19日高开后直线拉升,股价大涨超6%,最高报303.68美元/股,再创历史新高 [2] - 公司最新总市值超过3.6万亿美元 [2] - 当日股价具体表现为:开盘价287.31美元,最高价303.68美元,最低价286.63美元,收盘价302.86美元,涨幅6.54% [3] - 当日成交金额为74.00亿美元,换手率为0.43% [3] 新产品发布与技术优势 - 谷歌于当地时间11月18日推出其“迄今为止最智能的模型”——Gemini 3,公司首席执行官称其集成了Gemini系列所有强大功能 [5] - Gemini 3具备博士级别的推理能力,在多项基准测试中表现优异,并支持高达100万token的超长上下文窗口 [5][7] - 根据LMArena排行榜,Gemini 3 Pro登顶榜首,在多项关键测试中领先于其他主流模型,例如在Humanity's Last Exam测试中达到37.5%,在GPQA Diamond科学知识测试中达到91.9%,在AIME 2025数学测试中达到95.0% [2][6] - 该模型进一步突破了多模态推理边界,具备领先的推理能力、视觉与空间理解能力以及卓越的多语言表现力 [7] 用户基础与生态系统 - 公司AI Overviews每月已拥有20亿用户,Gemini App的月活跃用户突破6.5亿大关 [7] - 超过70%的云客户正在使用公司的AI服务,有1300万名开发者基于公司的生成式模型进行开发工作 [7] 行业背景与分析师观点 - 同日美股科技股大幅拉涨,纳斯达克指数涨超1.5%,博通涨超5%,英伟达涨超3%,英特尔涨超3.7% [4] - 分析师认为,谷歌通过全面布局芯片(TPU)-网络(OCS)-模型(Gemini)-应用(云计算/搜索/广告等),构筑了AI全栈优势护城河 [7] - 公司自研TPU芯片实现跨越式发展,Gemini模型能力全球领先,其算力需求的高增长以及AI硬件创新带来产业链投资机会 [7]
Gemini 3.0发布:从“工具辅助”到“主动代理”,谷歌做了这几点
钛媒体APP· 2025-11-19 08:32
产品发布与战略意义 - 谷歌发布最新人工智能模型Gemini 3,该模型被业内称为“全能型选手”,实现了对前代产品的代际级超越,并在多个核心基准测试中对标甚至超越GPT-5.1、Claude 4.5等竞品 [1] - 模型将整合进Gemini应用、AI搜索产品AI Mode和AI Overviews,以及企业级产品,自发布日起向部分订阅用户开放,并将在未来几周更大范围上线 [1] - 此次发布具有重要战略意义,可能让公司在AI竞赛中夺得领先地位,特别是在OpenAI的ChatGPT-5未能立即产生重大影响之后 [8] 核心能力突破:推理 - 在基础推理能力上,Gemini 3 Pro在GPQA Diamond测试准确率达91.9%,在Humanity's Last Exam测试中无工具状态下得分37.5%,在SimpleQA Verified测试中以72.1%的分数领跑业界 [2] - 推出Gemini 3 Deep Think增强推理模式,在Humanity's Last Exam测试中达到41.0%的成绩,在GPQA Diamond测试中获得93.8%的分数,在ARC-AGI-2测试中创下45.1%的成绩 [3] - 增强推理模式通过“思维签名”和“思考等级”两大创新将思维链技术产品化,该模式将在未来几周内向Google AI Ultra订阅用户开放 [3] 核心能力突破:多模态与长上下文 - Gemini 3 Pro支持高达100万tokens的超长上下文长度,相当于700页英文书籍或2小时的4K视频,较谷歌自身的Gemini 2提升7倍,且保持90%以上的信息保留率 [4] - 在多模态理解方面,Gemini 3 Pro在MMMU-Pro测试中获得81%的分数,在Video-MMMU测试中达到87.6%,成为“世界上最先进的多模态理解模型” [4] - 测试显示,模型在识别18世纪手写文稿方面字符错误率仅为0.56%,词错误率为1.22%,相比前代Gemini 2.5 Pro提升50%-70%,达到专家级人类水平 [7] 核心能力突破:编码与智能体 - 在代码生成领域,Gemini 3在LiveCodeBench Pro测试中以2439的Elo得分远超GPT-5.1的2243和Claude 4.5的1418,逼近专业程序员水平 [5] - 智能体能力显著跃升,在Terminal-Bench 2.0测试中以54.2%的得分展现强大工具使用能力,在Vending-Bench 2测试中通过一致决策实现更高回报,位居测试榜首 [6] - 公司同步推出全新开发平台Google Antigravity,支持在更高抽象层级上进行任务导向型编程 [6] 行业影响与公司优势 - 模型发布将倒逼竞争对手加速技术创新,推动AI行业在推理能力、多模态融合、智能体开发等领域的全面进步 [9] - 公司拥有自研专用芯片、在线搜索约90%的市场份额,以及数以百万计的Gmail、Google Docs等用户基础,这些产品正逐步被注入AI功能 [8] - 公司上月公布创纪录收入,并计划在AI建设上投入数十亿美元 [8]
Gemini3 正式发布
小熊跑的快· 2025-11-19 08:09
产品发布与定位 - 谷歌于2025年11月19日正式发布Gemini 3,定位为当前全球最强大的多模态理解模型、智能体模型及“vibe coding”模型 [1] - 公司推出了Gemini 3 Pro预览版以及增强推理模式Gemini 3 Deep Think,后者将优先提供给安全测试人员,随后面向Google AI Ultra订阅用户开放 [1] - 该产品是谷歌在推动模型智能加速方面的最新成果,并同步发布了全新的智能体开发平台Google Antigravity [8] 核心性能表现 - Gemini 3以1501 Elo得分位居LMArena排行榜首位,并在Humanity's Last Exam上取得博士水平的推理表现,得分37.5% [1] - 在数学能力上,模型在MathArena Apex取得23.4%的最新最优成绩,在AIME 2025上不使用工具得分95.0%,使用代码执行可达100% [1][3] - 在多模态推理方面,Gemini 3 Pro在MMMU-Pro上成绩为81.0%,在Video-MMMU上成绩为87.6%,重新定义了行业标准 [2][3] - 在事实准确性方面,模型在SimpleQA Verified上取得72.1%的业界领先成绩 [2][3] Deep Think模式增强 - Gemini 3 Deep Think模式进一步提升了模型性能,在Humanity's Last Exam上成绩提升至41.0%,在GPQA Diamond上达到93.8% [4] - 该模式在ARC-AGI-2上使用代码执行取得45.1%的成绩,显示出在推理与多模态理解方面的飞跃式提升 [4] 智能体与编码能力 - Gemini 3是公司最出色的vibe coding和agentic coding模型,以1487 Elo成绩登顶WebDev Arena排行榜 [8] - 在Terminal-Bench 2.0测试中模型获得54.2%的成绩,在SWE-bench Verified上达到76.2% [3][8] - 在长周期智能体任务中,Gemini 3 Pro在Vending-Bench 2测试中平均净值为5,478.16美元,显著高于竞争对手 [3] - 模型在LiveCodeBench Pro上的Elo评级达到2,439,显示出强大的竞争性编程问题解决能力 [3] 多模态与上下文能力 - Gemini 3设计用于跨文本、图像、视频、音频和代码多种模态,具备100万tokens的上下文窗口 [6] - 模型在长上下文性能测试MRCR v2 (8-needle)中,128k上下文平均成绩为77.0%,1M上下文点状成绩为26.3% [3] - 在多语言能力方面,模型在MMLU上取得91.8%的成绩,在Global PIQA上达到93.4% [3] 平台集成与应用场景 - 用户可在Google AI Studio、Vertex AI、Gemini CLI及新平台Google Antigravity中使用Gemini 3,该模型也已集成至Cursor、GitHub、JetBrains等第三方平台 [8] - Google Antigravity平台深度集成Gemini 3 Pro、Gemini 2.5 Computer Use及Nano Banana图像编辑模型,将AI提升为主动合作伙伴 [9][10] - 搜索中的AI模式现已使用Gemini 3,能根据搜索查询实时生成沉浸式视觉排版、交互式工具和模拟器 [7] - 模型具备实际任务处理能力,例如分析运动视频生成训练计划、整理邮箱、预订本地服务等复杂多步骤流程 [7][10]