AI + 软件开发
搜索文档
刚刚,谷歌划时代模型 Gemini 3 登场!编程性能碾压 Claude Sonnet 4.5,百万级上下文窗口直接封神
AI前线· 2025-11-19 01:40
产品发布与定位 - 谷歌低调发布划时代AI模型Gemini 3.0,未举办发布会仅通过博客文章宣布[2] - 该模型被定位为谷歌迄今为止最智能、适应性最强的模型,旨在应对现实世界复杂性并增强推理、创造力及战略规划能力[3] - Gemini 3.0设计初衷为无缝整合多模态信息,包括文本、图像、视频、音频和代码[3] 核心技术特性 - 模型采用稀疏混合专家架构,实现模型容量与计算成本解耦,通过大规模参数储备提升能力上限同时仅激活部分参数以降低资源消耗[4] - 模型完全基于谷歌自研张量处理单元集群训练,凭借高带宽内存和并行计算能力实现训练速度的数量级提升[9] - 训练数据体系呈现多元化与高合规性特征,包含公开网页数据、商业许可数据及符合条款的用户互动数据[9] 性能基准表现 - 在LiveCodeBench Pro竞技编程测试中得分2439,高于GPT-5.1的2243和Claude 4.5的1418,逼近专业竞赛级程序员水平[14] - 数学推理测试AIME 2025裸分达到95%,开启代码执行后可达100%,超越GPT-5.1的94%和Claude 4.5的87%[15] - Agent能力测试t2-bench得分85.4%,与Claude 4.5的84.7%基本持平,明显高于GPT-5.1的80.2%[16] - 长期任务规划测试Vending-Bench 2得分5478美元,显著高于Claude 4.5的3838美元和GPT-5.1的1473美元[17] 开发者生态整合 - 模型已登陆AI Studio、Gemini CLI及Cursor、GitHub等主流开发者平台[4] - 同步推出智能体开发平台Google Antigravity,目标是从代码自动补全转向任务导向型开发模式[8] - 谷歌内部已有25%的代码由AI自动生成,表明公司正将AI深度整合至软件开发流程[24] 行业竞争态势 - 网友评价呈现两极分化,部分用户认为性能终于能正面竞争GPT系列,也有用户对发布形式表示失望[27][28][32] - 行业观点指出当技术性能增长进入平台期后,企业需通过功能创新或降低成本实现差异化竞争[34][35] - 谷歌通过聚焦代码场景的战略押注,试图重塑AI+软件开发的行业范式[23][25]