Gemini 3深夜来袭：力压GPT 5.1，大模型谷歌时代来了

产品发布与市场热度 - Gemini 3模型正式发布，被谷歌定义为"通往AGI的重要一步"和目前世界上多模态理解能力最强、交互最深度的智能体[8][10][11] - 发布前推特平台因讨论热度高涨出现服务中断，显示市场对该模型的高度期待[1][3][5] - 在X平台发起的"到2026年底哪家公司拥有最好的LLM"投票中，Google Gemini以58.5%的得票率遥遥领先，OpenAI ChatGPT为21.7%，xAI Grok为13.1%，Anthropic Claude为6.7%[50][52] 技术性能突破 - Gemini 3 Pro在LMArena Leaderboard获得1501 Elo突破性高分，在Humanity's Last Exam测试中达到37.5%（无工具）和45.8%（使用搜索和代码执行）[13][14] - 数学能力方面，在MathArena Apex上达到23.4%的SOTA水平，在AIME 2025测试中获得95%（无工具）和100%（代码执行）的成绩[13][14] - 多模态理解表现突出，MMMU-Pro得分81%，Video-MMMU得分87.6%，显示在复杂科学图表解析和动态视频流理解方面的优势[13] - 事实准确性显著提升，SimpleQA Verified测试达到72.1%的成绩[14] 开发者生态与工具 - 推出全新Google Antigravity平台和Deep Think模式，重塑开发者生态与AI辅助体验[12] - 在终端编码测试Terminal-Bench 2.0中获得54.2%的成绩，在SWE-bench Verified测试中达到76.2%[28] - 支持Google AI Studio、Vertex AI、Gemini CLI等开发平台，并兼容Cursor、GitHub、JetBrains等第三方平台[29] - Deep Think模式在GPQA Diamond测试中达到93.8%的更高分数，在ARC-AGI-2测试中获得45.1%的成绩[19][21] 商业应用与规划能力 - 长周期规划能力在Vending-Bench 2测试中得到验证，模拟售货机经营中实现平均净资产$5,478.16，显著高于Claude Sonnet 4.5的$3,838.74和GPT-5.1的$1,473.43[32][33][36] - 定价采用分级机制，200k tokens以下任务输入/输出价格为$2.00/$12.00（每百万token），超过200k tokens分别为$4.00和$18.00[40] - 结合百万级token上下文窗口，支持文本、图像、视频、音频和代码的多模态信息整合学习[23] 市场表现与用户增长 - AI Overviews月活跃用户达20亿，Gemini应用月活突破6.5亿[52] - 超过70%的云客户以及1300万开发者正在使用其生成式模型[52] - 模型采用MoE架构，具有1M输入和64k token输出，训练基于TPU从头开始[38]