谷歌Gemini 3.1 Pro新王登场,一口气手搓Win11操作系统,造出模拟城市app,SVG效果绝了
36氪·2026-02-20 13:33

产品发布与核心升级 - 谷歌于2月20日正式发布新一代旗舰模型Gemini 3.1 Pro [1] - 新模型的核心升级集中在复杂任务处理能力上,特别是在高级推理、多模态理解和复杂项目生成方面得到进一步强化 [11] - 谷歌DeepMind主要提升了Gemini 3.1 Pro的推理能力 [2] 性能基准测试表现 - 根据谷歌的基准测试,Gemini 3.1 Pro在12项测试中超过Gemini 3 Pro、Claude Opus 4.6、Claude Sonnet 4.6、GPT-5.2等模型,拿下第一 [1] - 在业界公认高难度的ARC-AGI-2通用智能基准测试中,Gemini 3.1 Pro斩获77.1%的高分,超越Claude、GPT模型,且成绩相较Gemini 3 Pro的31.1%实现翻倍提升 [2] - 在需要更强推理能力的测试中,Gemini 3.1 Pro在人类最后的考试(无工具搜索下得分44.4%)、GPQA Diamond(得分94.3%)等测试中,表现都优于Claude、GPT模型 [29] - 在编程能力测试中,Gemini 3.1 Pro在LiveCodeBench Pro的Elo评分达到2887,在SWE-Bench Verified中得分为80.6% [2] - 在衡量大模型在高价值知识工作中综合能力的GDPval-AA Elo评分中,Gemini 3.1 Pro得分为1317,优于GPT-5.2(1462)和GPT-5.3-Codex,仅次于Sonnet 4.6(1633)[32] - 在工具使用能力(τ2-bench零售场景得分90.8%)、多语言性能(MMLU得分92.6%)、长上下文能力(MRCR v2 8针测试平均得分84.9%)等测试中,新模型的表现同样优于其他模型 [32] - 在多模态大模型学术评测基准MMMU-Pro上,Gemini 3.1 Pro的得分为80.5%,比Claude、GPT模型更好,但略逊于Gemini 3 Pro的81.0% [32] 实际应用与社区实测案例 - 新模型能够一次性安装Windows 11 WebOS,生成的系统界面有完整应用图标、开始菜单样式布局以及基础窗口交互逻辑,整体形态更接近一个可运行的轻量级操作系统 [11][15] - 有开发者用Gemini 3.1 Pro在浏览器中直接生成并运行了一个可交互的VoxelWeb项目,形态类似“我的世界”式3D沙盒,界面包含启动按钮、移动控制、方块交互以及基础合成逻辑 [15] - 模型在生成SVG动画方面能力显著,例如生成的“鹈鹕骑自行车”动画在身体结构、骑行姿态及自行车细节上更为自然合理 [5] - 模型能根据文本提示生成可用于网站的动画SVG,这些动画用纯代码构建,在任何尺寸下都能保持清晰,且文件体积小 [23] - 谷歌UX工程师用Gemini 3.1 Pro开发了一个逼真的城市规划应用程序,能自己处理复杂地形、绘制基础设施图、模拟交通,最后生成高质量的可视化效果 [21] - 模型能构建实时航空航天仪表盘,成功配置公共遥测数据流以可视化国际空间站的轨道运行轨迹 [24] - 在交互式设计方面,模型可以编写代码生成复杂的3D椋鸟群飞模拟,并构建沉浸式体验,让用户通过手势追踪操控鸟群,同时聆听随鸟群动态变化的生成式配乐 [25] - 模型能进行创意编程,例如为《呼啸山庄》构建现代个人作品集网站,深入分析小说氛围基调,设计出简洁现代的界面 [26] - 模型展现出高阶视觉认知能力,能对视觉错觉图片进行识别,并拆解其形成机制,体现出多步视觉推理能力 [18] 产品定价与可用性 - 从发布日起,Google AI Pro、Ultra订阅用户可以在Gemini应用、AI助手NotebookLM中使用Gemini 3.1 Pro,免费用户可提问2次 [10] - 开发者和企业用户可以在AI Studio、Antigravity、Vertex AI、Gemini Enterprise、Gemini CLI及Android Studio的Gemini API预览版中使用Gemini 3.1 Pro [10] - Gemini 3.1 Pro预览版的API价格采用分级计费模式,提示词在20万token以内,每百万token输入价格2美元,输出价格12美元;提示词超过20万token,每百万token输入价格4美元,输出价格18美元 [10] 行业趋势与公司战略 - 当前大模型行业正从通用能力比拼,转向真实世界复杂任务的实战能力竞争,海内外各家模型在推理、工程化、多模态理解等核心能力上不断发力突破 [33] - 谷歌近期的加速布局,包括发布Gemini 3 Deep Think模型升级及一周后推出Gemini 3.1 Pro,都将模型的升级重点放在专业领域加速技术研发、解决实际工作中的复杂问题上 [33] - 行业趋势显示,更智能的大模型正真正具备解决真实世界复杂任务能力,AI成为专业领域核心生产力的潜力在增加 [33]

谷歌Gemini 3.1 Pro新王登场,一口气手搓Win11操作系统,造出模拟城市app,SVG效果绝了 - Reportify