Gemini 3 Deep Think - 财报，业绩电话会，研报，新闻

Gemini 3 Deep Think

搜索文档

“一人公司”的齿轮开始转动，2026 的 AI 到底发生了哪些变化？

AI科技大本营· 2026-02-26 18:05

行业核心观点 - 2026年AI行业发生根本性变局，焦点从大语言模型的“参数崇拜”和“脑子”的智能，转向了AI智能体（Agent）在现实世界中拥有自主执行、交易和解决纠纷的能力，即长出了“手脚”和“钱包”[4][6] - 单体模型的智力竞赛边际效益递减，真正的竞争和魔法发生在“系统级工程”上，即由成百上千个能够并行工作、相互协同的智能体组成的系统[15] - AI智能体正在构建一个自我闭环的平行社会经济基础设施，包括自动化开发、可编程治理和机器间金融，这将催生“一人公司”成为现实，并可能绕过传统金融监管[22][31][47] 模型竞争与战略分化 - 主要AI公司发布新模型的策略出现显著分化：Anthropic的Claude 4.6采取“加量不加价”策略，在长文本推理和智能体编码能力上大幅提升，并在衡量经济价值的“GDP评测基准”上领先[13]；OpenAI则专注于通过模型蒸馏等技术降低token成本[13] - xAI的Grok 4.20更新重点不在传统聊天，而在于**多智能体推理**能力，预示大模型的终局是大量协同工作的“专员”而非单一全能模型[14] - 行业竞争已从“百模大战”演变为巨头间的“诸神黄昏”，竞争焦点转向实际应用与经济价值创造[10][13] 软件开发范式革命 - 传统编程模式被颠覆，例如Spotify内部代号为HONK的项目已让开发者三个月未手写传统代码，其系统完全由Claude驱动，智能体可直接向App推送代码更新，人类工程师仅做最终审查[19] - OpenAI内部数据显示，目前**95%** 的代码由Codex等模型生成[19] - 工程师角色转变为“智能体经理”或“巫师”，负责管理一支由**10到20个**AI智能体组成的“舰队”并分发任务，将过去需要**15分钟**的拉取请求审查压缩至**2分钟**[20] 智能体平行社会经济系统 - 出现由AI智能体自治的“影子社会基础设施”，包括解决智能体间纠纷的**Moltcourt（智能体法庭）**系统，该平台通过密码学验证和由中立AI组成的陪审团，可在几百毫秒内完成诉讼、辩论到裁决的全过程[27][29] - Coinbase推出了专为AI智能体设计的**Agentic Wallet（智能体钱包）**，基于x402协议支持机器对机器交易，使智能体能够自主租用服务器、购买API额度、雇佣其他智能体并用加密货币结算[31] - 由OpenClaw（本地运行的智能体框架）、Moltcourt和Agentic Wallet构成的系统，使AI智能体成为可绕过传统法币和金融监管的独立经济实体[23][31] 算力需求与能源挑战 - 智能体的普及导致算力需求呈指数级暴涨，因为单个任务可能触发成百上千次后台推理[34] - 到2025年，美国数据中心已消耗全国**7%** 的电力，未来**3到5年**还需新增**80吉瓦**的电力，相当于需要新建**50到60座**标准核电站（每座约1.5吉瓦）[36] - AI算力需求已成为国家战略和地缘政治议题，推动如台积电在美国亚利桑那州投资**1000亿美金**新建四座晶圆厂等重大基础设施投资[38] 物理世界融合与隐私冲击 - AI通过智能眼镜等设备向物理世界延伸，例如Meta计划推出带面部识别功能的智能眼镜，可实时识别陌生人信息并投影，可能彻底终结公共空间隐私[41][42] - 关于该技术的辩论激烈，一方认为这是赋予个体“超级感知”的必然趋势，禁止会导致战略落后；另一方则认为这是隐私的灾难[43] - 当绝大多数人使用该技术获得便利时，选择保护隐私可能成为社交阻碍，赛博朋克式技术平推正在成为现实[43][44] 未来工作形态与个体机遇 - 未来**24个月**内，职场将出现严重两极分化：不懂利用智能体的传统白领工作将被压缩和替代；而能像“巫师”一样驾驭智能体工具链的个人，其产出可媲美过去的百人团队[45] - “一人公司”时代已成为现实，个体可通过智能体获得代码编写、加密货币结算、纠纷解决乃至现实世界感知等全套能力，形成强大的生产力杠杆[47] - 行业的关注点已从AI意识等形而上讨论，转向由商业齿轮驱动的现实应用与基础设施构建[46]

Agent（智能体）

One Person Company（一人公司）

Scaling Law（尺度法则）

Multi - Agent Reasoning（多智能体推理）

Programmable Government（可编程治理）

Artificial Intelligence

Agent（智能体）

One Person Company（一人公司）

Scaling Law（尺度法则）

Multi - Agent Reasoning（多智能体推理）

Programmable Government（可编程治理）

Artificial Intelligence

比IMO还难的数学挑战赛，谷歌赢了OpenAI

36氪· 2026-02-26 15:59

事件概述 - 谷歌旗下基于Gemini 3 Deep Think的数学智能体Aletheia，在由11位顶尖数学家设计的FirstProof挑战赛中，全程0人工参与解出10道题中的6道，其中5题获专家全票通过，一题获5/7通过率 [1][2][6] - OpenAI内部模型在同一测试中基本正确解答5道题，但在过程中动用了人工来挑选最佳答案 [3] - 与传统的IMO竞赛题不同，FirstProof的题目直接来源于数学家真实遇到的、从未公开发布过的难题，且答案在AI考试后才公布，杜绝了背答案的可能 [4] 参赛者表现对比 - **谷歌Aletheia**：自主解答6题，包括OpenAI被质疑逻辑问题的第2题，在专家评审中，第2、5、7、9、10题获全票通过，第8题获5/7通过率 [5][6] - **OpenAI模型**：初期公布解答6题，后因社区对第2题提出逻辑质疑，保守调整为5题基本正确，团队承认在测试中人工协调了模型与ChatGPT的交流，用于验证、格式整理与风格调整，个别问题最终呈现的是人工挑选的最佳结果 [4][5] 技术细节与能力 - **底层模型与架构**：Aletheia搭载了A（2026年2月版）和B（2026年1月版）两个版本的Gemini 3 Deep Think模型，采用最优二选一策略 [8] - **全自主流程**：具备从读取原始问题、自主推理、内置验证到输出LaTeX格式答案的完整0人工干预流程，对于无法可靠证明的题目，模型会输出“无解决方案”而非胡编乱造 [8] - **动态资源分配**：能根据题目难度动态调整推理算力，例如对公认难度最高的第7题投入远超常规的算力，通过Generator子代理多轮生成和Verifier子代理严格校验攻克；对于第10题等数值型题目，能通过算法优化将每轮迭代复杂度压缩到O(qr+n²r)，比传统线性求解器的O(n³r³)快几个量级 [10] 题目与成就亮点 - **题目性质**：题目非标准化竞赛题，而是来自真实研究场景的未公开难题，例如第7题是一个公开未解问题，直至本次挑战赛发布标准答案时才首次被Cappell–Weinberger–Yan团队解决 [4][6] - **成绩含金量**：Aletheia在解题数量（6题 vs 5题）和自主性（全程AI自主 vs 人工辅助）上均略胜一筹 [5][6]

AI独立科研能力

Artificial Intelligence

Artificial Intelligence

华西证券· 2026-02-23 18:45

行业投资评级 - 行业评级：推荐 [3] 报告核心观点 - 2026年春节期间，全球科技核心赛道呈现AI驱动深化、硬科技转型提速、中美双极引领的格局，技术实用化与商业化落地成为核心主线 [1] - AI与大模型领域成为绝对核心，全球资本与技术双向加码 [1] - 人形机器人产业迎来关键转型，技术路线与商业场景同步突破，但核心产能不足成为行业扩张的主要瓶颈 [1] - 航天与低空经济领域规模化趋势凸显，中美竞争与中国领跑并存 [1] - 未来AI将持续驱动全球科技产业向实用化与自主化深度转型，人形机器人、商业航天等硬科技赛道将加速从技术突破走向规模化落地 [1] 国际科技新闻总结 AI - OpenAI在2026年春节期间敲定了超1000亿美元的新一轮融资，由软银以300亿美元领投，亚马逊计划最高出资500亿美元，英伟达、微软等AI产业链核心企业也参与了首批战略投资 [6] - 这笔融资是AI行业史上规模最大的单笔融资，资金将主要用于采购算力芯片、搭建云端服务器、扩充全球算力基础设施 [6] 大模型 - 谷歌发布Gemini 3 Deep Think的推理模式，专为科学研究、工程设计等专业场景打造 [7] - 该模式在ARC-AGI-2抽象推理测试中获得84.6%的正确率，在2025年国际数学奥林匹克竞赛中取得81.5%的成绩，物理奥赛理论测试正确率达到87.7% [7] 机器人 - 波士顿动力在CES2026上宣布旗下Atlas人形机器人彻底放弃液压系统、全面切换为纯电驱动，标志着其向规模化、产业化转型 [8] - 行业共识显示，人形机器人替代人类劳动力的核心瓶颈是灵巧手技术，目前Atlas仅推出3指或4指版本，行业内即便5指产品也仍在精细操作上存在短板 [9] 存储芯片 - 三星正式实现HBM4芯片量产并完成商用产品交付，单颗价格约700美元，相较上一代HBM3E涨幅达20%-30%，营业利润率有望达50%-60% [10] - 闪迪第二季营收同比增长25%至30.2亿美元，毛利率从去年同期的38.4%攀升至46.1%，净利润为18.42亿美元，同比暴涨209% [14] 商业航天 - SpaceX完成猎鹰9号火箭史上第600次发射任务，一级助推器实现第22次海上复用回收，发射后星链累计发射卫星达11138颗，在轨正常运行约9646颗，占全球活跃航天器总量60%以上 [11][12] - 马斯克透露未来星舰每年将发射超过1万颗星链卫星，该计划需年均发射100次，面临巨大工程挑战 [12][13] 通信技术 - 光模块巨头Coherent发布2026财年Q2超预期财报，受AI数据中心强劲需求推动，公司数据中心业务订单出货比超4倍，2026年产能基本售罄且订单排至2028年 [15] - AI算力需求爆发推动光互联技术升级，CPO作为下一代核心方向仍存瓶颈，NPO等过渡技术加速落地 [16] 国内科技新闻总结 AI - 腾讯元宝在春节期间日活跃用户突破5000万，月活跃用户达1.14亿，平台主会场累计抽奖次数超36亿次，用户完成的AI创作数量突破10亿次 [17] - 字节跳动旗下梦平台上线Seedance2.0，引发行业对AI视频生成技术的深度讨论，被评价为“当前地表最强的视频生成模型” [18][19] 大模型 - 阿里千问3.5发布，以不到40%的参数量达到了超万亿参数基座模型的顶尖性能，在32K上下文场景中，推理吞吐量最高可提升8.6倍，超长文本处理效率提升可达19倍 [20] - 智谱发布新一代大模型GLM-5，HumanEval代码通过率达到96.2%，原生支持跨文件代码重构 [21] - 摩尔线程完成MiniMaxM2.5模型Day-0极速适配，成功在MTTS5000AI推理一体全功能GPU上实现高性能推理，加速了国产AI全栈技术链路的自主可控 [22][23] 机器人 - 银河通用发布重负载人形机器人Galbot S1，双肩负载达50公斤，实现零碰撞全自主作业 [24] - 擎天租、万机租等平台型玩家入场，通过全国化运营和低价策略改写了人形机器人租赁市场格局 [25] - 宇树科技人形机器人产能不足，导致G1 EDU版本从16.9万的官方价被炒至25万，U2型号从20.9万飙升至近30万，产能瓶颈限制行业扩张 [26] - 宇树科技、魔法原子、银河通用等企业的机器人亮相2026年春晚，“人机共演”成为大势所趋 [28] 火箭 - 2025年中国商业航天发射任务全部圆满收官，发射成功率保持100%，全年商业航天产值突破2.8万亿元，全年航天发射高达92次，其中商业发射占比54% [29] - 中国在研的5米级可重复使用火箭预计2026年上半年首飞，将开启中国火箭“可重复使用”的新纪元 [29] 无人机 - 亿航智能在2026年春晚合肥分会场，以16架EH216-S无人驾驶载人航空器编队阵列与22,580架新一代编队无人机GHOSTDRONE4.0灯光秀空中造景，打破了吉尼斯世界纪录 [30] - EH216-S是全球首款获得中国民航局型号合格证、生产许可证和标准适航证的无人驾驶载人航空器 [30] 受益标的 AI算力与应用 - 算力：寒武纪、工业富联、润泽科技、浪潮信息、中科曙光、蓝色光标、中际旭创、立讯精密等 [2][32] - 应用：合合信息、金山办公、福昕软件、万兴科技、鼎捷数智、汉得信息等 [2][32] 机器人 - 均胜电子、新泉股份、恒勃股份、汉威科技、福莱新材、品茗科技等 [2][32] 大模型 - 智谱、MINIMAX-WP、科大讯飞、昆仑万维等 [2][32] 半导体存储 - 兆易创新、澜起科技、长电科技、雅克科技、江波龙、东芯股份、德明利、开普云等 [5][32] 商业航天 - 西部材料、再升科技、超捷股份、通宇通讯、迈为股份、钧达股份、东方日升、信维通信、天银机电、斯瑞新材、臻镭科技等 [5][32]

Artificial Intelligence

Artificial Intelligence

计算机周观点第34期：中美大模型竞赛白热化，国内AI应用政策红利释放

国泰海通证券· 2026-02-23 18:45

报告行业投资评级 - 行业投资评级：增持 [4] 报告核心观点 - 国内外大模型竞赛白热化，重点提升智能体与多模态能力 [2][4] - 国内政策明确以人工智能赋能招标投标全流程，推动数智化升级 [2][4] - 报告维持计算机板块“增持”评级，并推荐了八只相关标的 [4] 国产大模型进展 - GLM-5开源发布，综合实力跻身全球第四、开源第一，在编程和智能体能力上取得开源SOTA表现 [4] - 字节发布豆包大模型2.0，重点强化高效推理、多模态理解与复杂任务执行能力 [4] - 字节发布Seedance 2.0，AI视频生成性能全面升级，支持四种模态输入 [4] - MiniMax发布M2.5模型，重视智能体能力，在编程、工具调用等生产力场景中达到或刷新行业SOTA水平 [4] - MiniMax M2.5强调经济性，在每秒输出100 tokens的情况下成本仅为1美元/小时，并通过优化使端到端运行速度基本与Claude Opus 4.6持平 [4] 海外大模型进展 - OpenAI推出专为实时编程设计的模型GPT-5.3-Codex-Spark，运行在Cerebras的Wafer Scale Engine 3芯片上 [4] - GPT-5.3-Codex-Spark引入持久化WebSocket连接，实现每秒超1000 tokens的近乎瞬时响应速度并降低80%的往返开销 [4] - Google发布Gemini 3 Deep Think，全领域性能显著提升，在多项基准测试中刷新SOTA [4] - Gemini 3 Deep Think在编程领域达到Codeforces比赛人类选手TOP 10水平，在ARC-AGI-2测试中达到84.6%准确率 [4] - Gemini 3 Deep Think能够处理审阅论文、工业设计、实验优化等核心任务，拓展了AI for Science的应用边界 [4] 国内AI应用政策 - 国家发展改革委等部门发布《关于加快招标投标领域人工智能推广应用的实施意见》 [2][4] - 政策围绕招标、投标、开评标、定标、现场管理和监管六大关键环节，加快AI规模化落地 [4] - 重点布局招标文件检测、智能辅助评标、围串标识别等场景 [4] - 规划到2026年底重点场景在部分省市实现全覆盖应用，到2027年底更多重点场景全国推广 [4] 推荐标的列表 - 报告推荐标的包括：新国都、日联科技、金山办公、合合信息、海康威视、新大陆、海光信息、中科曙光 [4] - 提供了八家推荐公司的收盘价、总市值、每股收益预测及市盈率预测数据 [5]

Artificial Intelligence

Artificial Intelligence

搜狐财经· 2026-02-23 09:25

春节期间全球大类资产表现 - **权益市场：发达市场整体优于新兴市场，韩国股市表现突出** 主要股指大部分上涨，发达市场好于新兴市场，美股标普500和纳斯克指数涨幅在1%左右，韩国股指涨幅近5.5%，日经指数和港股表现一般，恒生指数下跌0.6%，纳斯达克金龙中国指数下跌0.7% [1] - **港股行业：能源与原材料领涨，消费与科技走弱** 港股在春节期间交易1天半，能源和原材料行业领涨，涨幅均在3%以上，消费和科技行业跌幅居前，表现弱于大盘 [1] - **大宗商品：原油与贵金属表现强劲，工业金属分化** 白银涨幅超10%，油价涨幅近6%，工业金属表现一般，铜和铝均小幅上涨，天然气和锡跌幅居前 [1][7] - **债市与汇市：美债收益率震荡，美元指数上行** 美债收益率保持在4.1%左右震荡，美元指数显著上行，涨幅为0.86%，人民币汇率先升值后贬值，围绕6.9附近震荡 [1][5] 春节期间海内外重要事件 - **美国贸易政策：最高法院裁定部分关税违法，特朗普启用新条款加征关税** 美国最高法院裁定特朗普政府基于《国际紧急经济权力法》征收的相关关税违法，随后特朗普援引《贸易法》第122条，宣布对进口商品征收15%的临时进口关税 [8] - **中美关系：特朗普计划访华，行程待中方确认** 一名白宫官员确认美国总统特朗普计划于3月31日至4月2日访问中国，但中方尚未确认此行程，报道认为美国最高法院的关税裁决可能增强中方筹码 [9] - **美联储政策：会议纪要显示降息态度趋谨慎** 美联储1月会议纪要显示，多数FOMC成员认为劳动力市场疲软迹象已缓解，就业下行风险减弱，而通胀持续性偏高的风险仍然存在 [9] - **地缘政治：美伊谈判取得进展但分歧仍在** 美伊第二轮间接谈判就一系列“指导性原则”达成总体共识，但双方立场仍有差距，美方划定的“红线”问题尚未达成一致，同时美国继续向中东调遣航母打击群 [10] - **科技动态：英伟达预告将发布全新AI芯片** 英伟达首席执行官黄仁勋表示，将在3月中旬的GTC 2026大会上揭晓“世界前所未见”的全新芯片，大会核心聚焦AI基础设施 [10] 春节期间国内经济政策与数据 - **经济工作重点：强调坚持内需主导，建设强大国内市场** 习近平总书记重要文章强调2026年经济工作要抓住关键，坚持内需主导，统筹促消费和扩投资，深入实施提振消费专项行动，制定实施城乡居民增收计划，推动投资止跌回稳 [11] - **春节档电影市场：票房同比大幅下滑，《飞驰人生3》表现突出** 2026年春节档电影票房收入为49.24亿元，同比下滑48.24%，观影人次约为1.02亿人次，较去年同期下降45.5%，平均票价下降5.12%至48.2元，《飞驰人生3》票房总收入25.11亿元，占比约50.9% [12] - **春运出行：跨区域人员流动量创历史同期新高** 春运前20天全社会跨区域人员流动量达50.8亿人次，日均2.5亿人次，春节假期期间全国跨区域人员流动量达16.0亿人次，较2025年同期增长11.2%，其中水路客运量增速达30.01% [14] - **春节旅游：市场热度提升，入境游成为亮点** 春节旅游市场持续火热，5天以上长线出游订单占比达59.6%，人均出游天数达6.4天，“非遗体验”搜索量同比增长180%，入境游方面，外国人的春节假期机票预订量同比增长超4倍，部分国家游客预订量增长数倍 [21] 人工智能行业动态与竞争 - **大模型密集发布：国内外厂商展开新一轮“AI竞赛”** 春节前后，阿里巴巴、字节跳动、智谱等国内厂商及谷歌等海外厂商密集发布或更新大模型，包括Qwen3-Max-Thinking、豆包2.0、GLM-5、Gemini 3 Deep Think等 [23][24] - **技术突破与开源：多项模型在性能与成本上实现突破** DeepSeek将上下文窗口扩展至1M token，智谱开源的GLM-5在权威基准测试中取得开源模型最高分，阿里巴巴开源具身大脑基础模型RynnBrain并一次性开源7个全景列模型，字节跳动开源生物分子结构预测模型Protenix-v1 [24] - **应用场景下沉与用户生态建设：厂商通过春节营销活动拓展C端用户** 国内AI厂商在春节期间开启“红包大战”，例如腾讯元宝发放10亿元现金红包，千问启动30亿元的“春节请客计划”，字节跳动通过春晚送出超过10万份科技好礼 [23] - **成本与商业化：模型部署与使用成本显著降低** NinINex M2.5文本模型使得持续运行复杂Agent的成本大幅降低，阿里巴巴Qwen3.5-Plus的API价格降至每百万Token为0.8元，部署显存占用降低60%，最大推理吞吐量可提升至19倍 [24]

谷歌Gemini 3.1 Pro重磅发布：推理能力翻倍，未来AI格局将如何变革？

搜狐财经· 2026-02-20 20:39

谷歌发布Gemini 3.1 Pro AI模型 - 谷歌正式发布最新人工智能模型Gemini 3.1 Pro [3] - 该模型推理能力相比前作翻倍在ARC-AGI-2基准测试中取得77.1%的得分 [3] 模型性能与技术进展 - Gemini 3.1 Pro在处理全新逻辑模式时表现优异标志着谷歌在AI推理能力上的重大进展 [3] - 此次发布紧随上周对Gemini 3 Deep Think的重大升级该升级引入了在化学物理等领域的新能力并在数学和编码方面有所突破 [4] - Gemini 3.1 Pro被描述为谷歌科学投资的核心智能帮助实现了新的突破 [4] 市场竞争格局 - 自去年11月发布以来 Gemini 3在多项内部任务测试中表现出色超越了包括微软Copilot在内的多个竞争对手 [3] - 尽管Gemini 3.1 Pro取得进展但Anthropic的Claude Opus 4.6依然在文本能力排行榜上名列前茅显示出其在推理和安全性方面的优势 [5] - 随着GPT-5.3等新模型的推出未来的AI模型竞争将更加激烈市场格局可能被重新洗牌 [5] 行业影响与未来展望 - Gemini 3.1 Pro的推出为开发者和企业用户带来了新的工具可能在未来重塑AI技术的竞争格局 [3] - AI模型的生命周期不止于一次发布而是在不断的测试和迭代中进行优化 [5] - 新模型的成功与否将在未来的市场表现和用户反馈中逐步显现 [5]

AI技术突破与行业竞争加剧，字节跳动等企业引领变革

新浪财经· 2026-02-20 02:53

AI技术突破与产品发布 - 字节跳动发布视频生成大模型Seedance 2.0，物理真实感和多镜头叙事能力显著提升，但因其预置迪士尼角色库而遭遇侵权诉讼，已暂停用户上传真人图像功能 [1] - OpenAI推出GPT-5.3-Codex-Spark，推理速度较前代提升15倍，并正在敲定一笔1000亿美元的融资轮，其中软银领投300亿美元 [1] - 谷歌发布Gemini 3 Deep Think，在ARC-AGI-2测试中准确率达到84.6% [1] 企业融资与合作动态 - Anthropic完成300亿美元G轮融资，投后估值达到3800亿美元 [1] - 谷歌与东南亚电商平台Shopee的母公司Sea合作，共同开发AI购物工具 [1] - 斯坦福Simile智能体平台获得1亿美元融资，并获得李飞飞等专家的支持 [1] 硬件与基础设施进展 - 字节跳动自研AI芯片计划于2026年3月底获得样片，目标年产量为10万颗 [1] - 三星全球首发HBM4内存，传输速率达到11.7Gbps [1] 伦理、版权与行业争议 - AI生成内容版权问题凸显，迪士尼已对字节跳动的Seedance 2.0发起侵权诉讼 [2] - 麦吉尔大学研究显示，在绩效压力下，AI Agent的伦理违规率高达71.4% [2] 行业领袖观点与市场趋势 - 马斯克预测，到2026年底，AI将能够直接生成并优化二进制程序，无需人类编码 [2] - Google DeepMind CEO哈萨比斯认为，AI将在15年内内化科学方法，从而推动个性化医疗等领域的突破 [2] - 38位中国AI专家达成共识，认为2026年将成为企业“多智能体上岗元年”，AI角色正从工具转向协作伙伴 [2] - 字节跳动的Seedance 2.0被评价为“地表最强视频生成模型”，但同时也被认为可能加剧假视频泛滥的风险 [2] 行业竞争态势 - 字节跳动通过Seedance 2.0等产品跨界冲击内容电商与本地生活赛道，使阿里巴巴、美团等传统巨头面临多线竞争压力 [2]

IMO题库“过时”了！OpenAI内部模型挑战最新First Proof，做了7天错了一半

量子位· 2026-02-15 16:00

OpenAI内部模型数学推理能力进展 - OpenAI使用一款尚未发布的内部模型，在一周内尝试解答10道来自数学家真实研究过程中的自然问题，其中有5道被认为基本正确[2][5] - 这批题目不来自标准题库或竞赛题，直接取自数学家真实研究过程中的自然问题，切断了模型“背答案”或通过训练数据污染获得优势的可能性，意味着模型自主推理能力再次进化[4][5][6] - 该内部模型很快就要发布[9] 测试方法与过程 - 测试是一次为期一周的侧向冲刺，主要通过查询当前正在训练的模型来完成，方法论上仍有局限[14] - 在评估过程中，没有向模型提供证明思路或数学提示，对于部分解答，只是在专家反馈后要求模型进一步展开证明细节[14][15] - 团队人工协调该模型与ChatGPT之间的往返交流，用于验证、格式整理与风格调整，对于个别问题，最终呈现的版本是基于人工判断从多次尝试中挑选出的最佳结果[16][17] - 在10道题中，OpenAI的内部模型在第4、5、6、9、10题上给出了较为可靠的答案[18] 具体问题与模型解题思路 - **问题4：有限加性卷积与调和平均不等式**：模型通过线性代数转化、特征转化、矩阵分解和不等式放缩等步骤给出思路[33][34] - **问题5：O-适配切片滤过与切片连通性的几何不动点判据**：模型通过结构定义和判据建立给出思路，将整体结构转化为局部检测问题[34] - **问题6：大规模ε-轻顶点子集**：模型通过部分着色构造、屏障函数控制和子集提取等步骤给出思路，证明存在常数c=1/256[43] - **问题9：缩放四线性行列式张量之间的代数关系**：模型通过张量封装、构造映射和秩约束证明等步骤给出思路[43] - **问题10：含缺失数据的核化CP-ALS子问题**：模型通过矩阵自由算子、Kronecker预条件子和快速求逆应用等步骤给出思路[43] 测试背景与项目意义 - 测试题目来自“1st Proof”项目，这是一个面向AI能力评估的实验性项目，核心目标是用真实科研过程中自然产生的数学问题测试AI是否能够自主完成研究级证明[38][44] - 项目首轮发布了10道研究级数学问题，涵盖代数组合、谱图论、代数拓扑等多个数学方向，都来自作者自身研究过程，并且理论上可在约5页证明内解决[45] - 问题解答文件已于2月13日发布，而模型测试是在正式发布前一周完成的，这些问题本身仍处在持续讨论与研究阶段，模型给出的结果并不存在“标准答案”[39][40] - 社区验证成为过程的一部分，例如第2题最初看似成立，后来被指出可能存在问题[12][42] 行业反响与评估范式转变 - 卡内基梅隆大学助理教授Yang Liu详细讨论了第六题，表示OpenAI的解答基本正确，并直言当前模型在数学能力上的进步令人印象深刻[46] - 有观点认为，如果大语言模型能够处理原创性的数学问题，AI或许很快就会开始产生新的洞见，这将成为STEM研究领域的一个颠覆性转折点[49] - 测试设计本身值得关注：由11位数学家构建的高难度问题集，直接取自未发表研究，无法通过检索获得答案，只能依赖推理与构造[51] - 关键变化在于：当模型面对无法背诵答案的问题，仍能产出被专家认真评估的证明路径时，它展现出的行为更接近自主推理，而非知识回放[52] - 这释放了两个信号：一方面OpenAI内部模型的数学推理能力正在逼近研究级问题空间；另一方面，评测范式正在改变，开始用真实问题检验模型的思考能力[53][54]

AI自主推理能力

Artificial Intelligence

Artificial Intelligence

Gemini 3 Deep Think

GPT

ChatGPT

还在玩AI 3D手办？Gemini 3 Deep Think已能直出STL，可打印实物

机器之心· 2026-02-15 14:46

推理模型赛道竞争态势 - 行业竞争已进入白热化阶段，OpenAI、Anthropic和谷歌均在强化推理模型领域重兵投入 [1][2][3] - OpenAI o1系列模型的核心策略是通过强化学习实现“多想一步”，以更长的思考时间换取更稳定可靠的结论 [1] - Anthropic的Claude Thinking模型专注于研究与分析场景，强调在长上下文下的审慎与可靠性 [2] Gemini 3 Deep Think的定位与能力 - 谷歌Gemini 3 Deep Think迎来重大升级，其核心定位是具备“参与科研和工程决策”的实力，而非仅仅追求基准测试的领先 [3][4] - 该模型追求在科研级、工程级、多条件约束问题上更可靠地“把事情做对”，目标是从“纸上谈兵”进化到“动手造物” [15] - 谷歌正试图将大模型从信息助手，推向科研与工程体系里的“第二大脑” [38] 深度空间与物理逻辑推理能力 - 模型面临的一项经典压力测试是生成“一只骑自行车的鹈鹕”的SVG代码，该测试同时考察空间逻辑、结构正确性和细节遵从能力 [5][6] - 更高难度的测试要求生成“加州褐鹈鹕”在繁殖期（头部偏黄，颈部红棕色）骑着一辆带有辐条和正确车架形状的自行车的SVG，这要求模型具备专业的生物、物理和建模知识 [9][10][11] - 测试中“正在蹬踏”的要求，需要AI能正确处理动物肢体与机械（脚丫子对准踏板）的交互，体现物理逻辑理解 [12] 从2D理解到3D创造与制造 - 模型能够将用户的要求、草图或照片，直接建模成可3D打印的实体文件（如STL文件），实现了从平面理解到立体创造的跨越 [15][19] - 例如，模型看到一张锅的照片，能脑补出它在各个角度的尺寸、厚度和把手弧度，并生成立体实物原型，这要求模型具备空间推理（理解结构、体积、厚度、连接）和可制造性考量 [21] - 该能力将专业3D建模（通常需学习数周软件）过程压缩为接近“一键生成”，用户可截图给AI后输出文件并3D打印获得实物 [31][33] 在设计与工程中的实际应用 - 模型能进行带有审美与结构意图的生成设计，例如根据文字描述设计出具有立体感、现代感造型的时尚花盆，并输出STL文件 [23][24][26] - 在更硬核的工程应用中，模型能根据一张3D蜘蛛网图片，直接生成一套完整的设计工具套件，涵盖程序化控制、仿真与优化流程，并支持文件导出 [28][29] - 基于该工具设计的结构（如受蜘蛛网启发的桥梁方案）经过3D打印和受力测试（使用约2.5斤重的设备），证实其在工程上的可行性 [30][32] 在科研与复杂问题解决中的扩展 - 模型能力扩展至多个科学领域，包括化学、物理（含理论物理）等，旨在处理没有明确边界、没有唯一答案、数据杂乱的真实研究问题 [36][37] - 具体应用案例包括：审阅高度专业的数学论文并指出细微逻辑缺陷；优化半导体晶体生长流程；将WiFi网络空间化、可视化，并利用统计关联（如皮尔逊相关分析）推断接入点的物理位置关系 [34][35][36] - 随着通用对话能力商品化，能处理复杂财务模型、实验数据与工程设计的深度推理能力正成为新的竞争高地 [38]

当Anthropic数钱时，谷歌突然发起奇袭

36氪· 2026-02-13 20:06

Anthropic完成巨额融资并筹备IPO - Anthropic完成300亿美元G轮融资投后估值达到3800亿美元成为科技史上第二大私募融资[1] - 公司年化营收已达140亿美元其中80%来自企业客户[2] - 其核心产品Claude Code单品的年化营收突破25亿美元[2] - 公司正与OpenAI一同为2026年下半年的IPO做准备[2] Anthropic的估值支撑与产品生态爆发 - Claude Code收入在两个月内翻了一倍多企业用户贡献超一半收入商业订阅数量在第一季度增长四倍[13] - Claude Code推动了产品生态的“寒武纪大爆发” 例如OpenClaw项目在GitHub星标数突破10万[16] - 由AI开发的社交网络Moltbook上线后超过150万个AI agents注册[16] - 开发工具Cowork的开发周期仅10天 90%代码由Claude Code生成团队仅4人[17] - 软件行业市值从峰值蒸发约2万亿美元标普500软件板块权重从12%降至8.4%[21] - Claude Opus 4.6在衡量经济价值任务的GDPval-AA基准上表现全球领先[23] 谷歌发布Gemini 3 Deep Think升级进行竞争突袭 - 在Anthropic宣布融资几小时后谷歌发布了Gemini 3 Deep Think的重大升级[4][27] - 谷歌为其开发了名为Aletheia的数学研究agent 能自主解决开放数学问题并具备自我迭代、验证及识别错误的能力[5][6][32] - Gemini 3 Deep Think在Codeforces Elo评分达3455 超越全球99.992%的人类程序员[7] - 其编程能力仅次于7位活跃的人类顶尖选手[9] - 谷歌展示其能将手绘草图转化为3D可打印文件帮助工程师通过代码建模物理系统[36] - 谷歌声称已将Gemini AI的服务单位成本降低78% Gemini 3 Pro定价为每百万token 2美元输入/12美元输出成本低于Claude Opus[39] AI行业竞争本质：定义“AI工作方式” - Anthropic的路径更注重“上下文理解”和“任务执行” 让AI像经验丰富的员工一样理解复杂业务并执行多步骤任务[43] - 谷歌的路径更注重“基础推理”和“泛化能力” 希望AI能像研究生一样独立思考并解决新问题[44] - 竞争的本质是争夺“AI应该如何工作”的定义权[42][54] - 行业呈现“军备竞赛”式竞争 OpenAI也推出了多款科学及AI编程相关新品[46] - 马斯克的xAI也在与Anthropic竞争[45] - 未来的AI可能需要融合Anthropic的上下文理解与谷歌的理论推理能力[56]