Workflow
Gemini 3深夜来袭:力压GPT 5.1,大模型谷歌时代来了
机器之心·2025-11-19 02:19

产品发布与市场热度 - Gemini 3模型正式发布,被谷歌定义为"通往AGI的重要一步"和目前世界上多模态理解能力最强、交互最深度的智能体[8][10][11] - 发布前推特平台因讨论热度高涨出现服务中断,显示市场对该模型的高度期待[1][3][5] - 在X平台发起的"到2026年底哪家公司拥有最好的LLM"投票中,Google Gemini以58.5%的得票率遥遥领先,OpenAI ChatGPT为21.7%,xAI Grok为13.1%,Anthropic Claude为6.7%[50][52] 技术性能突破 - Gemini 3 Pro在LMArena Leaderboard获得1501 Elo突破性高分,在Humanity's Last Exam测试中达到37.5%(无工具)和45.8%(使用搜索和代码执行)[13][14] - 数学能力方面,在MathArena Apex上达到23.4%的SOTA水平,在AIME 2025测试中获得95%(无工具)和100%(代码执行)的成绩[13][14] - 多模态理解表现突出,MMMU-Pro得分81%,Video-MMMU得分87.6%,显示在复杂科学图表解析和动态视频流理解方面的优势[13] - 事实准确性显著提升,SimpleQA Verified测试达到72.1%的成绩[14] 开发者生态与工具 - 推出全新Google Antigravity平台和Deep Think模式,重塑开发者生态与AI辅助体验[12] - 在终端编码测试Terminal-Bench 2.0中获得54.2%的成绩,在SWE-bench Verified测试中达到76.2%[28] - 支持Google AI Studio、Vertex AI、Gemini CLI等开发平台,并兼容Cursor、GitHub、JetBrains等第三方平台[29] - Deep Think模式在GPQA Diamond测试中达到93.8%的更高分数,在ARC-AGI-2测试中获得45.1%的成绩[19][21] 商业应用与规划能力 - 长周期规划能力在Vending-Bench 2测试中得到验证,模拟售货机经营中实现平均净资产$5,478.16,显著高于Claude Sonnet 4.5的$3,838.74和GPT-5.1的$1,473.43[32][33][36] - 定价采用分级机制,200k tokens以下任务输入/输出价格为2.00/2.00/12.00(每百万token),超过200k tokens分别为$4.00和$18.00[40] - 结合百万级token上下文窗口,支持文本、图像、视频、音频和代码的多模态信息整合学习[23] 市场表现与用户增长 - AI Overviews月活跃用户达20亿,Gemini应用月活突破6.5亿[52] - 超过70%的云客户以及1300万开发者正在使用其生成式模型[52] - 模型采用MoE架构,具有1M输入和64k token输出,训练基于TPU从头开始[38]