Workflow
原生多模态架构
icon
搜索文档
Gemini 3 Pro刷新ScienceQA SOTA|xbench快报
红杉汇· 2025-11-20 11:38
文章核心观点 - Google正式发布新一代基础模型Gemini 3,在深度推理与思考、多模态理解、Agent编程能力上有极大提升[1] - Gemini 3 Pro在xbench-ScienceQA榜单中以71.6的平均分超越Grok-4成为新SOTA,并且响应时间快,价格低[1] - 模型实现了从“反应式”推理向“审慎式”推理的转变,解决了大模型常见的“幻觉”问题,标志着AI从“知识检索”向“逻辑推理”的跨越[8] 模型性能表现 - Gemini 3 Pro在ScienceQA榜单中平均分为71.6,BoN(N=5)达到85分,超越第二名Grok-4的分数6分[3][5] - 平均响应时间仅48.62秒,远快于Grok-4的227.24秒和GPT-5-high的149.91秒[3] - 官网API价格为输入每百万token 2美元,输出每百万token 12美元,低于Grok-4的3美元/15美元和GPT-5-high的1.25美元/10美元[3] - 与Gemini 2.5 Pro相比,平均分从59.4提升到71.6[5] - 运行ScienceQA成本估算显示,GPT-5.1花费32美元,Gemini 3 Pro仅花费3美元,成本约为前者的1/10[6] 技术架构创新 - 引入“深度思考”模式,在处理高复杂度任务时在内部构建多条推理链路进行自我博弈与验证[8] - 采用稀疏MoE架构,拥有海量参数专家但每次仅激活一小部分,显著降低计算开销[8] - 彻底摒弃外挂式编码器,采用极致的原生多模态架构,使文本、代码、图像、视频和音频在模型底层共享同一套“世界模型”[11] - 上下文长度显著扩充至百万级,可直接处理整本书、完整代码库或长时间音视频逐字稿[12] Agent与开发能力 - 带来“氛围编程”概念,模型能捕捉代码库中隐含的工程风格、架构规范及开发者直觉[9] - 作为自主Agent在IDE中运行,具备操作终端、浏览器和文件系统权限,拥有长程规划能力[9] - 在Google Antigravity平台中与Gemini 2.5 Computer Use模型、视觉模型Nano Banana等深度集成,实现“计划-执行-反馈”的自主多步骤工作流[10] 交互与生成能力 - 引入Generative UI,模型能根据用户意图实时编写前端代码并渲染出动态可交互界面[12] - 具备惊人感知能力,能转录3小时会议视频,精准识别说话人语气,从模糊低质量文档照片中无损提取结构化数据[11] 硬件支持体系 - 在Google自研的TPU上训练,TPU是为大型模型特别设计的高带宽、高并行计算芯片[13] - 借助TPU集群的强大算力和高效并行,在相对可控时间内完成训练,实现能耗与成本平衡[13]