Workflow
多模态处理
icon
搜索文档
谷歌Gemini 3.0 Pro模型卡发布,多模态能力大幅领先竞争对手
华尔街见闻· 2025-11-19 00:02
文章核心观点 - 谷歌新一代大模型Gemini 3 Pro在多模态处理、数学推理和长文本理解等关键领域实现显著突破,性能大幅超越前代产品及主要竞争对手[1] - 此次发布被视为谷歌在AI竞赛中的重要战略转折点,有望重塑其市场地位,并在搜索AI模式商业化、企业AI等场景实现突破[2] - 多模态能力的突破性提升可能催生大量新兴应用场景,结合谷歌庞大的产品生态,为公司带来广阔的商业化空间[9] 模型架构与技术规格 - 模型基于稀疏混合专家transformer架构构建,原生支持文本、图像、音频和视频多模态输入[3] - 采用稀疏混合专家架构,通过学习将输入token动态路由到参数子集,实现模型总容量与每token计算成本的解耦,显著提升处理效率[3] - 支持高达100万token的上下文窗口,输出能力达64K token,训练数据包含大规模多域多模态数据集[3] - 使用谷歌TPU进行训练,采用JAX和ML Pathways软件框架,数据处理包括去重、安全过滤、质量筛选等步骤[3] 多模态与推理能力 - 在多模态基准测试MMMU-Pro、ScreenSpot-Pro、Video-MMMU中,Gemini 3 Pro得分分别为81.0%、72.7%、87.6%,普遍超越GPT-5.1与Claude 4.5[4][5] - 在截图理解任务中得分达到72.7%,大幅超越其他旗舰模型的36.2%表现[4][5] - 在图像理解的逻辑推理测试Humanity's Last Exam和ARC-AGI-2中,得分分别为37.5%和31.1%,相比前代产品21.6%和4.9%实现大幅提升[4][5] - 在AIME 2025高难度数学榜单的“有代码执行”场景下达到满分,显示其工具调用与数学推理组合能力已达行业顶级水准[1][4] 代码与智能体能力 - 在代码编写和智能体应用基准测试中表现强劲,LiveCodeBench Pro的Elo评分为2,439,高于旧版本的1,775,并与GPT-5.1的2,243非常接近[5][6] - 在SWE-Bench Verified测试中成功率为76.2%,与GPT-5.1的76.3%和Claude 4.5的77.2%处于同一水平[5][6] - 在Vending-Bench 2长周期智能体任务中,净值为$5,478.16,显著高于旧版本的$573.64和GPT-5.1的$1,473.43[5][6] 长文本处理与信息检索 - 在长文本处理方面,MRCR v2测试中128K长度下的平均准确率为77.0%,1M长度下的点态准确率为26.3%,相比前代产品58.0%和16.4%有明显提升[5] - 在信息检索方面,SimpleQA Verified测试中得分超过72.1%,大幅领先于Claude Sonnet 4.5的29.3%和GPT-5.1的34.9%,显示出极低的幻觉率[5][6] 专业应用与性能验证 - 在18世纪手写文稿识别方面字符错误率仅为0.56%,相比前代产品提升50%-70%,达到专家级人类水平[1] - 在专业学术测试GPQA Diamond和MMLU中,得分分别为91.9%和91.8%,显示出强大的科学知识和多语言问答能力[5] 商业化前景与生态整合 - 模型在多模态能力、文本RAG能力上的大幅领先,结合谷歌自有的搜索、Workspace、Android生态,有望在搜索AI模式商业化、文档问答、企业AI等场景实现市场开拓能力的大幅提升[8] - 模型将通过Gemini App、Google Cloud/Vertex AI、Google AI Studio、Gemini API等多个渠道分发,适用于需要智能体性能、高级编码、长上下文和多模态理解的应用场景[9]
OpenAI,最新发布!
第一财经· 2025-04-15 08:06
OpenAI GPT-4 1系列模型发布 - 公司推出三款GPT-4 1系列模型包括GPT-4 1、GPT-4 1 mini和GPT-4 1 nano [1] - 新模型需要通过API使用 [1] - GPT-4 1被视为GPT-4o的全面升级版 [1] 模型性能提升 - 新模型具备更强的多模态处理能力 [1] - 全部模型可处理100万个token的上下文窗口 [1] - 成本降低26% [1]