谷歌(GOOGL)
搜索文档
谷歌Gemini 3.1 Pro新王登场,一口气手搓Win11操作系统,造出模拟城市app,SVG效果绝了
36氪· 2026-02-20 13:33
产品发布与核心升级 - 谷歌于2月20日正式发布新一代旗舰模型Gemini 3.1 Pro [1] - 新模型的核心升级集中在复杂任务处理能力上,特别是在高级推理、多模态理解和复杂项目生成方面得到进一步强化 [11] - 谷歌DeepMind主要提升了Gemini 3.1 Pro的推理能力 [2] 性能基准测试表现 - 根据谷歌的基准测试,Gemini 3.1 Pro在12项测试中超过Gemini 3 Pro、Claude Opus 4.6、Claude Sonnet 4.6、GPT-5.2等模型,拿下第一 [1] - 在业界公认高难度的ARC-AGI-2通用智能基准测试中,Gemini 3.1 Pro斩获77.1%的高分,超越Claude、GPT模型,且成绩相较Gemini 3 Pro的31.1%实现翻倍提升 [2] - 在需要更强推理能力的测试中,Gemini 3.1 Pro在人类最后的考试(无工具搜索下得分44.4%)、GPQA Diamond(得分94.3%)等测试中,表现都优于Claude、GPT模型 [29] - 在编程能力测试中,Gemini 3.1 Pro在LiveCodeBench Pro的Elo评分达到2887,在SWE-Bench Verified中得分为80.6% [2] - 在衡量大模型在高价值知识工作中综合能力的GDPval-AA Elo评分中,Gemini 3.1 Pro得分为1317,优于GPT-5.2(1462)和GPT-5.3-Codex,仅次于Sonnet 4.6(1633)[32] - 在工具使用能力(τ2-bench零售场景得分90.8%)、多语言性能(MMLU得分92.6%)、长上下文能力(MRCR v2 8针测试平均得分84.9%)等测试中,新模型的表现同样优于其他模型 [32] - 在多模态大模型学术评测基准MMMU-Pro上,Gemini 3.1 Pro的得分为80.5%,比Claude、GPT模型更好,但略逊于Gemini 3 Pro的81.0% [32] 实际应用与社区实测案例 - 新模型能够一次性安装Windows 11 WebOS,生成的系统界面有完整应用图标、开始菜单样式布局以及基础窗口交互逻辑,整体形态更接近一个可运行的轻量级操作系统 [11][15] - 有开发者用Gemini 3.1 Pro在浏览器中直接生成并运行了一个可交互的VoxelWeb项目,形态类似“我的世界”式3D沙盒,界面包含启动按钮、移动控制、方块交互以及基础合成逻辑 [15] - 模型在生成SVG动画方面能力显著,例如生成的“鹈鹕骑自行车”动画在身体结构、骑行姿态及自行车细节上更为自然合理 [5] - 模型能根据文本提示生成可用于网站的动画SVG,这些动画用纯代码构建,在任何尺寸下都能保持清晰,且文件体积小 [23] - 谷歌UX工程师用Gemini 3.1 Pro开发了一个逼真的城市规划应用程序,能自己处理复杂地形、绘制基础设施图、模拟交通,最后生成高质量的可视化效果 [21] - 模型能构建实时航空航天仪表盘,成功配置公共遥测数据流以可视化国际空间站的轨道运行轨迹 [24] - 在交互式设计方面,模型可以编写代码生成复杂的3D椋鸟群飞模拟,并构建沉浸式体验,让用户通过手势追踪操控鸟群,同时聆听随鸟群动态变化的生成式配乐 [25] - 模型能进行创意编程,例如为《呼啸山庄》构建现代个人作品集网站,深入分析小说氛围基调,设计出简洁现代的界面 [26] - 模型展现出高阶视觉认知能力,能对视觉错觉图片进行识别,并拆解其形成机制,体现出多步视觉推理能力 [18] 产品定价与可用性 - 从发布日起,Google AI Pro、Ultra订阅用户可以在Gemini应用、AI助手NotebookLM中使用Gemini 3.1 Pro,免费用户可提问2次 [10] - 开发者和企业用户可以在AI Studio、Antigravity、Vertex AI、Gemini Enterprise、Gemini CLI及Android Studio的Gemini API预览版中使用Gemini 3.1 Pro [10] - Gemini 3.1 Pro预览版的API价格采用分级计费模式,提示词在20万token以内,每百万token输入价格2美元,输出价格12美元;提示词超过20万token,每百万token输入价格4美元,输出价格18美元 [10] 行业趋势与公司战略 - 当前大模型行业正从通用能力比拼,转向真实世界复杂任务的实战能力竞争,海内外各家模型在推理、工程化、多模态理解等核心能力上不断发力突破 [33] - 谷歌近期的加速布局,包括发布Gemini 3 Deep Think模型升级及一周后推出Gemini 3.1 Pro,都将模型的升级重点放在专业领域加速技术研发、解决实际工作中的复杂问题上 [33] - 行业趋势显示,更智能的大模型正真正具备解决真实世界复杂任务能力,AI成为专业领域核心生产力的潜力在增加 [33]
US-India partnership critical to ensure benefits reach everyone: Sundar Pichai
BusinessLine· 2026-02-20 13:29
公司核心观点 - 谷歌首席执行官强调美印伙伴关系对于确保人工智能惠及全球至关重要 公司为连接两国感到自豪[1][2] - 谷歌在两国拥有无缝协作的团队 源自印度的创新(如Google Pay)正在提升全球产品体验[3] - 公司对印度人工智能发展前景极为乐观 认为其将呈现非凡轨迹 并承诺提供全栈支持 包括产品扩展和基础设施[3] 行业与市场动态 - 美印两国即将签署PAX SILICA宣言 标志着人工智能领域的重要合作时刻[1] - 行业正处于一个深刻变革时刻 处于超速进步和新发现时代的开端 但最佳结果并非必然[2] - 行业需要共同努力以确保人工智能的益处普及到所有人和所有地区[2]
JGB Yields Retreat as AI Rivalry Flares at India Summit Photo Op
Stock Market News· 2026-02-20 13:08
日本超长期国债市场动态 - 日本40年期国债收益率下跌3.5个基点至3.540%,30年期收益率下跌3个基点至3.300%,表明在近期收益率触及数十年高位后,超长期债券需求显现韧性 [2] - 市场此前因担忧首相高市早苗的财政扩张计划而承受巨大抛压,此次收益率回落显示市场在持续紧张后寻获支撑 [2] - 日本债券市场自年初以来持续承压,40年期收益率曾在1月短暂突破4.0%关口,当前市场正在权衡日本央行的鹰派利率路径与政府暂停食品税(预计造成每年5万亿日元或327.8亿美元收入损失)的承诺 [3] - 周五的反弹表明,尽管财政可持续性仍是长期担忧,但投资者认为当前收益率水平已具备投资价值 [3] 人工智能行业竞争格局 - 在印度人工智能影响峰会上,OpenAI首席执行官Sam Altman与Anthropic首席执行官Dario Amodei在总理纳伦德拉·莫迪组织的合影环节中,拒绝按要求牵手,转而举起拳头,打破了“团结之链” [4] - 该事件凸显了两家领先人工智能实验室之间日益紧张的关系,Amodei因在AI安全与商业化方面的根本分歧于2021年离开OpenAI并共同创立Anthropic [5] - Anthropic近期完成一轮300亿美元的融资,投后估值达3800亿美元,这使其成为OpenAI市场主导地位的主要挑战者 [5][9] - OpenAI与微软关系紧密,而Anthropic则获得了来自亚马逊和Alphabet的数十亿美元投资,两家公司CEO之间的紧张关系也反映了其背后支持者之间更广泛的代理人竞争 [6] - 行业分析师认为,在全球监管机构试图为AI建立“民主护栏”之际,这两家关键公司缺乏团结,可能使构建统一的安全与道德行业框架的努力复杂化 [6] - OpenAI去年完成了410亿美元的融资轮次,与Anthropic的融资活动共同加剧了商业竞争 [9]
谷歌推出Gemini 3.1 Pro模型,核心推理能力实现大幅提升
环球网资讯· 2026-02-20 11:52
公司产品发布 - 谷歌对Gemini 3 Deep Think进行重大升级并正式推出Gemini 3.1 Pro核心模型 [1] - 该模型在推理能力上实现显著突破,专为科学、研究与工程领域的复杂任务打造 [1] - 模型目前已逐步面向开发者、企业用户和普通用户开放,将智能升级落地至各类日常应用场景 [1] 产品性能与能力 - Gemini 3.1 Pro在高级推理能力上得到大幅提升,成为解决复杂问题的更智能、更强大的基础模型 [3] - 在ARC-AGI-2基准测试中,Gemini 3.1 Pro取得77.1%的实测得分,推理性能达到上一代Gemini 3 Pro的两倍以上 [3] - 模型在科学知识、代码开发、多模态理解推理、长上下文处理等多个维度的测试中均展现出优异表现 [3] - 模型突破了简单答案输出的局限,能够为复杂课题提供清晰直观的可视化解释,实现多源数据的整合统一,并能助力各类创意项目落地实施 [3] 产品开放与落地 - 面向开发者,可通过Google AI Studio、Gemini CLI、智能体开发平台Google Antigravity以及Android Studio中的Gemini API开放预览版体验Gemini 3.1 Pro [4] - 面向企业用户,该模型已登陆Vertex AI与Gemini Enterprise平台 [4] - 面向普通用户,Gemini 3.1 Pro已在Gemini应用与NotebookLM中正式上线 [4] - Google AI Pro与Ultra订阅用户在Gemini应用中使用Gemini 3.1 Pro时,将获得更高的使用限额 [4] - NotebookLM为Google AI Pro与Ultra订阅用户独家开放该模型的全部能力 [4]
速递 | 谷歌Gemini 3.1 Pro实测:AI从“会说”到“会干活”,普通人也能捡钱
未可知人工智能研究院· 2026-02-20 11:36
文章核心观点 - 谷歌发布的Gemini 3.1 Pro是一次“真升级”,其核心价值在于显著提升了处理复杂任务的能力,并将AI的应用从“回答”推向“交付”[1][3] - 此次更新通过强化推理、长上下文、工具使用和代码生成等能力,正在压缩“从想法到成品”的时间,这将改变普通人的工作方式和创业公司的商业模式[15] 四大核心亮点 - **亮点1:推理能力“真涨脑子”**:在专门考核新题型逻辑的ARC-AGI-2基准测试中,Gemini 3.1 Pro的verified分数达到77.1%,相比上一代Gemini 3 Pro的31.1%有飞跃性提升,意味着模型从“背题库”转向理解“出题人逻辑”[5][7] - **亮点2:长上下文落地**:支持高达100万tokens的上下文窗口,使其能够一次性处理如完整合同、邮件、纪要等大量关联文档,实现“把大工程装进脑子里”[6] - **亮点3:工具使用能力增强**:支持函数调用、结构化输出、代码执行及联网搜索,使其能像“会用工具的同事”一样执行多步、可靠的智能体工作流,从提供建议转向交付结果[8] - **亮点4:“vibe coding”原型生成**:能够根据文字提示直接生成可用于网页的动画SVG、复杂系统可视化及交互式3D场景原型,大幅降低了产品原型制作的门槛和成本[9] 对普通人的影响 - AI的价值正从“会说”转向“会做作业”,普通人需要提升的是任务拆解和最终判断能力,而非简单的工具使用技能[12] - 最值钱的时间应用在“提出好问题”和“做最终判断”上,应避免成为“人肉复制粘贴机”[12] - 应将AI作为“外挂大脑”用于提升效率(提速),而非用于偷懒[15] 对创业者的机会 - 核心机会在于“把散装行业经验变成可复制产品”[13] - 许多行业知识存在于非结构化载体(如微信群聊、老师傅经验、复杂Excel表)中,新模型能理解并输出结构化结果,使创业公司有机会将行业经验封装为“可交付的智能体流程”[13] - 创业者应聚焦于开发能嵌入业务流程、产生现金流的“生产力引擎”,而非炫技性的“花活”,其售卖的核心是“结果”而非“AI”本身[13][15]
印度AI峰会:阵仗这么大,但中国去哪了?
虎嗅APP· 2026-02-20 11:20
文章核心观点 - 印度通过举办“2026印度人工智能影响力峰会”,高调绑定美国阵营,旨在确立其未来十年在全球AI领域的主导地位,并成为全球AI的“部署、扩散与制度嵌入中心”,这与中国致力于为发展中国家提供开源、普惠AI方案的发展路径形成竞争,预示着未来中印在AI领域的竞争将远大于合作 [5][16][19] 峰会概况与阵容 - 峰会于2月16日-20日在新德里举行,是“全球AI安全峰会”系列首次在“全球南方”国家举办,主题更改为强调AI对后发国家的发展助力,预计带来高达1000亿美元的投资承诺 [5] - 美国AI巨头派出“顶配”阵容,包括谷歌CEO皮查伊、OpenAI CEO奥特曼、Anthropic CEO达里奥·阿莫迪及Meta首席AI官亚历山大·王等硅谷核心人物 [7] - 峰会遭遇尴尬插曲:OpenAI与Anthropic的CEO拒绝握手且零交流;微软创始人比尔·盖茨在演讲前几小时突然退出;现场组织混乱和交通瘫痪遭吐槽 [11][12] 美国与印度在AI领域的深度合作 - **OpenAI的商业与教育扩张**:与印度IT外包巨头塔塔咨询服务公司(TCS)签约,初始数据中心容量达100兆瓦;与数字支付独角兽Pine Labs合作接入其API;与六家顶尖教育机构合作,为超10万印度学子提供ChatGPT Edu访问权限 [8] - **大规模基础设施投资**:印度信实集团计划未来七年投资1100亿美元建设本土AI基础设施;微软重申2030年前对印度投资500亿美元的承诺(去年已投175亿美元);谷歌计划在安得拉邦建设全栈AI枢纽,2026-2030年间投资150亿美元 [8][9][17] - **资本与生态绑定**:英伟达与风投合作大力投资印度本地AI初创企业,其全球初创计划已吸纳超4000家印度公司;印度数据中心运营商Yotta斥资20亿美元部署英伟达Blackwell B300芯片,打造亚洲最大AI超级集群之一 [9] - **本土模型发展**:印度AI初创公司Sarvam AI发布两款专为印度语言和文化定制的本土模型 [9] 印度AI战略选择:绑定美国的原因 - **战略定位**:印度放弃在需要数百亿美元算力的前沿基础模型领域与中美直接抗衡,选择成为全球AI的“部署、扩散与制度嵌入中心”,利用其“数字公共基础设施”(如Aadhaar、UPI)的成功经验,将AI作为新的公共服务层接入14亿人口的社会运作中 [16] - **现实需求**:印度需要美国现成的底层模型和庞大的算力资本来实现其AI愿景,作为交换向美国科技巨头开放海量数据与市场 [16] - **地缘政治与投资吸引**:美国急需寻找“可信赖”的产能与研发替代方以制衡中国,通过iCET等框架将美印在半导体、AI数据中心等领域的供应链深度绑定;美国科技巨头以空前力度真金白银投资印度,提供印度本土企业短期内难以独立承担的基础设施建设 [17] 中国AI方案与发展路径 - **政策与治理**:2024年7月,联合国大会通过了由中国主提的《加强人工智能能力建设国际合作决议》,获140多国支持;同年9月中国发布《人工智能能力建设普惠计划》,旨在帮助发展中国家跨越“智能鸿沟” [15] - **技术供给与全球影响**:以DeepSeek和阿里Qwen为代表的中国开源模型凭借高性价比和开放协议席卷全球,自2025年下半年起,其开源下载量在多个关键新兴市场已超越西方竞品,打破了西方的订阅壁垒与算力门槛 [15] - **赋能发展中国家**:越来越多发展中国家以中国大模型为基础进行本土AI开发(如基于Qwen的阿拉伯语模型AceGPT),中国方案赋予了发展中国家从技术“消费者”向本土AI“创造者”转型的可能 [15] 中印在AI领域的竞争态势 - **话语权竞争**:双方最激烈的隐性竞争点在于争夺对“全球南方”技术治理的话语权,印度希望成为发展中国家应用AI的“模板”和“服务供应商”,证明无需依赖中国基础设施,通过印度平台接入美国技术也能实现增长 [20] - **发展范式差异**:AI对中国是国家战略和面向全球的公共产品;对印度则是将成为类似数字身份证的另一种公共基础设施 [20] - **合作前景黯淡**:印度对欧美开放敏感数据或管理系统无障碍,但对中国厂商实施事实上的排斥(如封禁数百款中国应用),双方在AI领域合作前景极其黯淡 [21] - **有限的合作空间**:中印在反对技术封锁、要求降低发展中国家算力门槛、防止AI武器化等核心诉求上高度一致,可能在联合国等多边机制下存在战术性合作空间 [21] 印度本土AI生态的挑战与尴尬 - **资本市场反应**:印度首家上市AI独角兽Fractal Analytics IPO首日收盘跌破发行价7%,市值约16亿美元,远低于其此前24亿美元的私募估值 [10] - **“本土创新”尴尬**:峰会现场一家印度大学展示的所谓“100%本土自主研发”AI四足机器狗,被拆穿是中国企业宇树科技的产品,仅更换了外壳涂装 [22]
谷歌 Gemini 3.1 Pro 屠榜封神,清华姚顺宇出手!Claude 和 GPT 被逼入死角
程序员的那些事· 2026-02-20 11:05
谷歌DeepMind发布新一代旗舰模型Gemini 3.1 Pro - 谷歌DeepMind发布下一代旗舰模型Gemini 3.1 Pro,该模型在多项基准测试中刷新了SOTA(State-of-the-Art)成绩,被描述为“AI新王” [4][17] - 模型在公认最难的ARC-AGI-2抽象推理测试中获得77.1%的最高分,性能是上一代Gemini 3 Pro(31.1%)的两倍有余,并超越了Claude Opus 4.6(68.8%)和GPT-5.2(52.9%)[3][8][21] - 模型已正式在Gemini和NotebookLM中上线,开发者可通过Google AI Studio、Antigravity以及Android Studio抢先体验 [14] 模型核心性能与基准测试结果 - 在“人类最后考试”(Humanity‘s Last Exam)学术推理测试中,Gemini 3.1 Pro在无工具辅助下得分为44.4%,高于GPT-5.2的34.5%和Claude Opus 4.6的40.0% [6][21] - 在科学知识测试GPQA Diamond中,模型获得94.3%的高分,领先于Claude Sonnet 4.6的89.9%和GPT-5.2的92.4% [6] - 在编程与智能体领域表现突出:在LiveCodeBench Pro竞赛编程测试中获得2887 Elo分;在Terminal-Bench 2.0终端编码测试中得分为68.5%,高于GPT-5.3-Codex的64.7%;在APEX-Agents长周期专业任务测试中以33.5%的得分领先于Opus 4.6的29.8%和GPT-5.2的23.0% [6][22] - 在长上下文处理方面,模型支持高达100万Token的上下文长度,在MRCR v2的128k平均测试中得分为84.9%,并在1M Token的测试中获得26.3%的分数,而竞争对手GPT-5.2和Claude Opus 4.6在此级别上显示“不支持” [19][25][26] - 在AAII综合评测中,Gemini 3.1 Pro总分领先Claude Opus 4.6达4分,且其API调用成本不到后者的一半 [13] 模型的多模态与创意应用能力 - 模型具备原生全模态输入能力,并在实际应用中展现出强大的生产力重塑能力,例如将概念转化为图解、数据转化为图表、创意转化为现实 [30] - 在创意编程方面,模型能根据文本提示直接生成可嵌入网页的SVG动画代码,文件体积小且支持无限放大 [32] - 模型能够整合复杂系统,例如构建实时航天数据看板,接入公开遥测数据流展示国际空间站轨迹 [34] - 模型可用于交互设计,例如用纯代码编写复杂的3D椋鸟群舞特效,并支持手势追踪与实时生成式配乐,是多模态交互界面原型开发的利器 [36][37] - 模型能将文学主题转化为精美代码,例如为《呼啸山庄》设计现代风格的个人主页,精准捕捉原著氛围 [39] 行业影响与竞争格局 - 此次发布被视作对AI行业格局的重塑,硅谷的AI战局主要玩家被视为谷歌DeepMind和Anthropic,而OpenAI似乎正逐渐失去在主战场上的主动权 [16][60] - 谷歌通过快速的迭代速度展示了其在通往AGI道路上的实力,表明只有硬件算力与算法深度耦合的玩家才能在下半场竞争中立足 [61]
Theft of Trade Secrets Is on the Rise—and AI Is Making It Worse
WSJ· 2026-02-20 10:56
公司动态与知识产权保护 - 谷歌、苹果以及xAI等公司正采取行动,以保护其敏感信息免遭被指控窃取信息的员工的侵害 [1]
编码新王登基!Gemini 3.1 Pro 血洗 Claude 与 GPT,12 项基准测试第一!
AI前线· 2026-02-20 10:43
产品发布与核心升级 - 谷歌正式推出Gemini 3.1 Pro,这是一次核心推理能力的系统性升级,旨在将最新一代推理能力快速融入实际工作流与个人使用场景,而不仅仅停留在实验室阶段 [2][4] - 该模型采用混合专家架构,用户可输入包含高达100万token数据量的提示词,响应输出最多包含6.4万token,标志着Gemini 3系列的最新能力开始全面进入开发者工具、企业服务及普通用户的日常应用 [2] - 谷歌的发布策略是先通过Deep Think展示上限,再通过3.1 Pro将这些能力沉淀为更稳定、更通用的底座模型,并迅速推向API、企业平台和消费级应用 [18] 性能表现与基准测试 - 在衡量抽象推理与新问题适应能力的ARC-AGI-2基准测试中,Gemini 3.1 Pro获得了77.1%的成绩,是其上一代产品Gemini 3 Pro(31.1%)的两倍以上,也显著领先于Claude Opus 4.6(68.8%)、Claude Sonnet 4.6(58.3%)和GPT-5.2(52.9%)[9][12][16] - 在官方公布的16项基准测试数据中,Gemini 3.1 Pro在其中12项基测中均位列第一 [17] - 在MCP Atlas测试(评估AI模型使用第三方服务执行任务能力)中,Gemini 3.1 Pro以69.2%的成绩领先于Claude Sonnet 4.6(61.3%)[17] - 在编程测试Terminal-Bench 2.0中,Gemini 3.1 Pro编码能力(68.5%)高于Opus 4.6(65.4%)和GPT-5.2(54.0%)[17] - 在科学编程任务基准测试SciCode上,Gemini 3.1 Pro的表现(59%)比Claude Opus 4.6(52%)高出7% [17] 技术特点与定位 - Gemini 3.1 Pro被定位为“更聪明、更具能力的基础模型”,尤其适用于复杂问题求解、跨领域分析以及需要抽象逻辑的任务 [9] - 与仅限Google AI Ultra订阅用户使用且每日限用10次的Deep Think模式不同,Gemini 3.1 Pro是一款向所有用户免费开放的基础模型 [15] - 该模型面向那些“给出一个简单答案远远不够”的任务而设计,旨在将高级推理能力转化为可用于解决最棘手问题的实用智能 [20] 应用场景与用例 - **基于代码的动画生成**:模型可以直接根据文本提示生成可直接用于网站的动态SVG动画,文件体积小,降低了加载和分发成本 [21] - **创意编程**:能够将文学主题转化为功能性代码,例如为小说《呼啸山庄》构建一个能捕捉主角神韵的现代个人作品集网站 [22] - **复杂系统综合**:利用先进的推理能力弥合复杂API与用户友好型设计之间的鸿沟,例如构建一个实时航天仪表盘来可视化国际空间站的轨道运行情况 [23] - **交互式设计**:能够编写复杂的3D椋鸟群舞模拟代码,并构建一个用户可通过手部追踪来操控鸟群、同时聆听动态生成式配乐的沉浸式体验 [23] 市场策略与覆盖范围 - Gemini 3.1 Pro已于发布当日开始分批上线,覆盖开发者、企业客户以及普通消费者 [3] - **开发者**可通过Gemini API(Google AI Studio)、Gemini CLI、智能体开发平台Google Antigravity以及Android Studio预览使用 [7] - **企业用户**通过Vertex AI和Gemini Enterprise接入 [7] - **消费者**可在Gemini App及NotebookLM中直接体验 [7] - 根据公司2025年第四季度收益报告,Gemini模型通过客户直接使用API,每分钟处理超过100亿个token,Gemini App的月活跃用户已增长到超过7.5亿 [25] 行业影响与社区反馈 - 技术社区认为此次更新的关键信号在于整体推理能力和复杂问题求解能力的持续提升,竞争焦点正在从“参数规模”转向“真实任务完成率” [27][28] - 人工智能的发展节奏已进入“以月甚至以周计”的阶段,Gemini 3.1 Pro在较短时间内推出被解读为谷歌对市场现实压力的直接回应 [28] - 社区关注点包括在降低使用成本的同时提升智能水平,这对于推动AI在生产环境中的应用尤为关键,决定胜负的将是推理能力、工程可用性以及规模化落地的综合表现 [30]
谷歌突发Gemini 3.1 Pro!首次采用「.1」版本号,推理性能×2的那种
量子位· 2026-02-20 09:28
文章核心观点 - 谷歌发布Gemini 3.1 Pro模型,相较于去年11月发布的3 Pro,虽为小版本号更新,但在核心推理能力、多模态生成、语义理解及长上下文处理等方面实现了显著提升,性能表现强劲,获得用户积极反馈 [1][9][27] - Gemini 3.1 Pro的发布,在提升性能的同时保持了与上一代模型持平的价格,显著优化了成本效益,推动了行业在“帕累托前沿”上的进步,即追求最小化成本与最大化性能 [35][36][39] Gemini 3.1 Pro的核心性能升级 - **推理能力大幅增强**:在ARC-AGI-2基准测试中,Gemini 3.1 Pro获得77.1%的验证分数,推理表现达到Gemini 3 Pro的2倍之多 [9][10] - **多模态与可视化能力进化**:官方展示显示,模型在多模态生成和语义理解上提升了一个level,能生成动作更连贯、色彩输出更佳的内容,并能将日常数据转为互动可视化内容 [1][14][20] - **长上下文与综合能力提升**:模型支持1M上下文,知识截止日期为2025年1月,在多模态理解、代码生成、多语言性能和长上下文方面均同步增强 [11] 基准测试与竞品对比表现 - **多项基准领先**:在Humanity's Last Exam测试中得分为51.4%(使用工具),在GPQA Diamond科学知识测试中达94.3%,在SWE-Bench Verified代理编码测试中达80.6% [11] - **竞品对比优势**:在ARC-AGI-2测试中,分数(77.1%)显著高于Claude Sonnet 4.6(58.3%)、Opus 4.6(68.8%)及GPT-5.2(52.9%) [11] - **整体排名提升**:在Arena对比评测中,Gemini 3.1 Pro的整体排名分数比3 Pro高出13分,文本与代码维度表现进步明显 [12] 实际应用与用户反馈 - **复杂任务处理**:能应对结构更复杂、步骤更多的提示词需求,例如一次性生成3D版“椋鸟群飞”视觉代码并实现可交互玩法,用户可通过手势追踪操控鸟群,画面还能根据运动生成音乐 [16][17][18] - **用户创意实现**:网友使用模型成功生成《我的世界》场景、创建个人网站以及开发具有逼真光线模拟效果的教育应用,反馈积极 [22][24][25] - **模型可用性**:Gemini 3.1 Pro已在Gemini应用和API中上线,Google AI Pro和Ultra用户还可在NotebookLM中使用该模型 [29] 成本与行业影响 - **定价策略**:Gemini 3.1 Pro Preview的输入输出价格与Gemini 3 Pro Preview持平,输入价格为每百万tokens 2美元(<200k)或4美元(>200k),输出价格为4美元(<200k)或18美元(>200k) [36] - **成本效益显著**:从ARC-AGI基准视角看,每完成一次ARC-AGI-2任务花费约0.96美元(约6.63元人民币),而性能相近的Gemini 3 Deep Think价格是其10倍 [37] - **推动行业进步**:此次更新以小幅版本号实现了性能的大幅提升和成本的优化,被认为打破了传统的成本-智能曲线,将大模型向帕累托前沿推进,对于高速进化中的大模型应用而言,成本持续压缩值得关注 [35][39][41]