兵临OpenAI,谷歌集结2500人「复仇」,Gemini 3夺回AI王座
36氪·2025-12-03 16:04

Gemini 3发布的意义与规模 - 谷歌通过Gemini 3的发布,试图夺回在生成式AI时代的主导地位,这是一次宣告与全球用户共建下一代智能系统的集体行动[1] - 此次发布是谷歌历史上参与人数最多的技术发布之一,参与规模可媲美NASA登月,凸显了工程协作的巨大力量[9] - 项目参与人员从早期论文的25人扩展到Gemini 3的2500人,体现了公司资源的大规模投入[23] 技术能力与基准测试表现 - 在Humanity‘s Last Exam测试中,Gemini 3 Pro达到37.5%(无工具)和45.8%(使用搜索和代码执行),显著高于Gemini 2.5 Pro的21.6%[21] - 在ARC-AGI-2视觉推理测试中取得31.1%的成绩,远超Gemini 2.5 Pro的4.9%和Claude Sonnet 4.5的13.6%[21] - 数学能力表现突出,AIME 2025测试中达到95.0%(无工具)和100%(使用代码执行)[21] - 在多模态理解方面,MMMU-Pro测试中获得81.0%的成绩,优于竞争对手[21] - 编程能力显著提升,LiveCodeBench Pro的Elo评分达到2,439,高于GPT-5.1的2,243[21] 技术发展策略与路线图 - 公司采用“全栈协作”模式,从芯片、数据中心到模型算法各层都有世界级专家参与,这是公司的核心优势[24] - 模型架构趋向统一,文本、图像、视频等多模态模型的架构正在自然融合,追求更高的效率与表现力[25] - 迭代速度加快,每六个月进行一次大版本迭代,每月或每六周更新一次,开发节奏显著提升[23] - 重点关注指令遵循和国际化两大领域,确保模型能理解用户请求并适用于全球用户[17][18] 产品化与用户共建策略 - 通过Anti-gravity、AI Studio、Gemini App等产品获取第一手用户反馈,实现模型与产品的深度整合[19][20] - 采用“与用户共创”模式,将AGI构建视为与全球用户共同进行的系统工程,而非闭门造车的研究[6][8] - 安全性被作为核心目标,安全团队和技术直接参与模型训练全过程,而非事后检测[8] - 代码能力被特别强调,因为代码是数字世界的底层语言,让更多人拥有“构建的能力”[18] 行业发展与竞争定位 - 公司承认在大语言模型崛起初期并不处于最前线,但通过快速学习和深度调整找到了独特的系统打法[31][32] - 技术进步不靠“挤压分数”,而是通过重新定义基准和边界来推动模型发展[14] - 图像生成被认为是难度极大的方向,需要满足像素级完美和概念连贯的双重要求[26][27] - 真正的进步衡量标准是用户在真实场景中的使用,包括科学家、学生、律师、工程师等各类用户群体[16]