产品发布与市场定位 - Gemini 3 Pro预览版正式发布,被定位为2025年压轴登场的海外大模型,成为当前时间窗口的唯一主角[1] - 公司通过内部人员频繁在社交平台打哑谜的营销手法,将外界对产品的期待值不断拔高[2] - 公司CEO Sam Altman在X平台发文祝贺谷歌成功推出Gemini 3,称其看起来是个很棒的模型[5] 核心性能与基准测试 - 模型在LMArena排行榜以1501分登顶,在推理、多模态、编程等主流测试中全面领先[5][6] - 推理能力创下多项纪录:GPQA Diamond达91.9%、MathArena Apex达23.4%、Humanity's Last Exam达37.5%[5][8] - 多模态推理方面,MMMU-Pro得分81%、Video-MMMU得分87.6%、SimpleQA Verified事实准确率达72.1%[9] - 编程能力突出,LiveCodeBench Pro的Elo Rating达2439分,Terminal-Bench 2.0得分54.2%,SWE-bench Verified得分76.2%[8][19] - 长期规划能力在Vending-Bench 2榜单上位居第一,平均净值为5478.16美元[8][22] 技术架构与创新功能 - 采用基于Transformer的稀疏专家混合模型架构,原生支持文本、视觉和音频等多模态输入[17] - 提供100万token上下文窗口和64K输出,支持深度思考模式Deep Think[5][9] - Deep Think模式在部分测试中表现更优,如Humanity's Last Exam达41.0%、GPQA Diamond提升至93.8%[10] - 模型集成全新AI IDE工具Google Antigravity,内置智能Agent可自主规划执行复杂软件任务[5][22] 实际应用与生态整合 - 模型具备处理手写文字、学术论文、长视频讲座等复杂场景能力,并能生成交互式学习卡片或训练计划[13][15] - 首次在发布当日直接集成进搜索,显著提升对复杂问题的理解与信息挖掘能力,可生成动态视觉界面和互动工具[15][17] - 已集成至Cursor、GitHub、JetBrains、Replit等开发工具生态系统中[25] - 通过Gemini API使用的价格为输入每百万token 2美元,输出每百万token 12美元,在Google AI Studio中可免费使用但有限制[23] 实测表现与行业影响 - 实测中能生成功能完整的互动应用,如一次性生成包含经典游戏的Game Boy掌机模拟器,具备UI设计、游戏逻辑和音效系统[28] - 在视觉生成和推理测试中表现优异,如用SVG实现电扇可视化效果,处理猴子分桃等经典数学问题[33][37][38] - 在写作测试中能生成情感真挚、意象丰富的散文,如以第一人称描写一滴雨水的一天[56] - 公司具备全栈能力优势,包括自研TPU处理器和全球最大的数据宝库,为模型训练提供强大助力[76]
刚刚,年度最强 AI 登场,马斯克奥特曼点赞 Gemini 3,体验后我发现 ChatGPT 要慌了