Gemini 3 Deep Think
搜索文档
“一人公司”的齿轮开始转动,2026 的 AI 到底发生了哪些变化?
AI科技大本营· 2026-02-26 18:05
行业核心观点 - 2026年AI行业发生根本性变局,焦点从大语言模型的“参数崇拜”和“脑子”的智能,转向了AI智能体(Agent)在现实世界中拥有自主执行、交易和解决纠纷的能力,即长出了“手脚”和“钱包”[4][6] - 单体模型的智力竞赛边际效益递减,真正的竞争和魔法发生在“系统级工程”上,即由成百上千个能够并行工作、相互协同的智能体组成的系统[15] - AI智能体正在构建一个自我闭环的平行社会经济基础设施,包括自动化开发、可编程治理和机器间金融,这将催生“一人公司”成为现实,并可能绕过传统金融监管[22][31][47] 模型竞争与战略分化 - 主要AI公司发布新模型的策略出现显著分化:Anthropic的Claude 4.6采取“加量不加价”策略,在长文本推理和智能体编码能力上大幅提升,并在衡量经济价值的“GDP评测基准”上领先[13];OpenAI则专注于通过模型蒸馏等技术降低token成本[13] - xAI的Grok 4.20更新重点不在传统聊天,而在于**多智能体推理**能力,预示大模型的终局是大量协同工作的“专员”而非单一全能模型[14] - 行业竞争已从“百模大战”演变为巨头间的“诸神黄昏”,竞争焦点转向实际应用与经济价值创造[10][13] 软件开发范式革命 - 传统编程模式被颠覆,例如Spotify内部代号为HONK的项目已让开发者三个月未手写传统代码,其系统完全由Claude驱动,智能体可直接向App推送代码更新,人类工程师仅做最终审查[19] - OpenAI内部数据显示,目前**95%** 的代码由Codex等模型生成[19] - 工程师角色转变为“智能体经理”或“巫师”,负责管理一支由**10到20个**AI智能体组成的“舰队”并分发任务,将过去需要**15分钟**的拉取请求审查压缩至**2分钟**[20] 智能体平行社会经济系统 - 出现由AI智能体自治的“影子社会基础设施”,包括解决智能体间纠纷的**Moltcourt(智能体法庭)**系统,该平台通过密码学验证和由中立AI组成的陪审团,可在几百毫秒内完成诉讼、辩论到裁决的全过程[27][29] - Coinbase推出了专为AI智能体设计的**Agentic Wallet(智能体钱包)**,基于x402协议支持机器对机器交易,使智能体能够自主租用服务器、购买API额度、雇佣其他智能体并用加密货币结算[31] - 由OpenClaw(本地运行的智能体框架)、Moltcourt和Agentic Wallet构成的系统,使AI智能体成为可绕过传统法币和金融监管的独立经济实体[23][31] 算力需求与能源挑战 - 智能体的普及导致算力需求呈指数级暴涨,因为单个任务可能触发成百上千次后台推理[34] - 到2025年,美国数据中心已消耗全国**7%** 的电力,未来**3到5年**还需新增**80吉瓦**的电力,相当于需要新建**50到60座**标准核电站(每座约1.5吉瓦)[36] - AI算力需求已成为国家战略和地缘政治议题,推动如台积电在美国亚利桑那州投资**1000亿美金**新建四座晶圆厂等重大基础设施投资[38] 物理世界融合与隐私冲击 - AI通过智能眼镜等设备向物理世界延伸,例如Meta计划推出带面部识别功能的智能眼镜,可实时识别陌生人信息并投影,可能彻底终结公共空间隐私[41][42] - 关于该技术的辩论激烈,一方认为这是赋予个体“超级感知”的必然趋势,禁止会导致战略落后;另一方则认为这是隐私的灾难[43] - 当绝大多数人使用该技术获得便利时,选择保护隐私可能成为社交阻碍,赛博朋克式技术平推正在成为现实[43][44] 未来工作形态与个体机遇 - 未来**24个月**内,职场将出现严重两极分化:不懂利用智能体的传统白领工作将被压缩和替代;而能像“巫师”一样驾驭智能体工具链的个人,其产出可媲美过去的百人团队[45] - “一人公司”时代已成为现实,个体可通过智能体获得代码编写、加密货币结算、纠纷解决乃至现实世界感知等全套能力,形成强大的生产力杠杆[47] - 行业的关注点已从AI意识等形而上讨论,转向由商业齿轮驱动的现实应用与基础设施构建[46]
比IMO还难的数学挑战赛,谷歌赢了OpenAI
36氪· 2026-02-26 15:59
事件概述 - 谷歌旗下基于Gemini 3 Deep Think的数学智能体Aletheia,在由11位顶尖数学家设计的FirstProof挑战赛中,全程0人工参与解出10道题中的6道,其中5题获专家全票通过,一题获5/7通过率 [1][2][6] - OpenAI内部模型在同一测试中基本正确解答5道题,但在过程中动用了人工来挑选最佳答案 [3] - 与传统的IMO竞赛题不同,FirstProof的题目直接来源于数学家真实遇到的、从未公开发布过的难题,且答案在AI考试后才公布,杜绝了背答案的可能 [4] 参赛者表现对比 - **谷歌Aletheia**:自主解答6题,包括OpenAI被质疑逻辑问题的第2题,在专家评审中,第2、5、7、9、10题获全票通过,第8题获5/7通过率 [5][6] - **OpenAI模型**:初期公布解答6题,后因社区对第2题提出逻辑质疑,保守调整为5题基本正确,团队承认在测试中人工协调了模型与ChatGPT的交流,用于验证、格式整理与风格调整,个别问题最终呈现的是人工挑选的最佳结果 [4][5] 技术细节与能力 - **底层模型与架构**:Aletheia搭载了A(2026年2月版)和B(2026年1月版)两个版本的Gemini 3 Deep Think模型,采用最优二选一策略 [8] - **全自主流程**:具备从读取原始问题、自主推理、内置验证到输出LaTeX格式答案的完整0人工干预流程,对于无法可靠证明的题目,模型会输出“无解决方案”而非胡编乱造 [8] - **动态资源分配**:能根据题目难度动态调整推理算力,例如对公认难度最高的第7题投入远超常规的算力,通过Generator子代理多轮生成和Verifier子代理严格校验攻克;对于第10题等数值型题目,能通过算法优化将每轮迭代复杂度压缩到O(qr+n²r),比传统线性求解器的O(n³r³)快几个量级 [10] 题目与成就亮点 - **题目性质**:题目非标准化竞赛题,而是来自真实研究场景的未公开难题,例如第7题是一个公开未解问题,直至本次挑战赛发布标准答案时才首次被Cappell–Weinberger–Yan团队解决 [4][6] - **成绩含金量**:Aletheia在解题数量(6题 vs 5题)和自主性(全程AI自主 vs 人工辅助)上均略胜一筹 [5][6]
春启新程:全球科技赛道加速前行
华西证券· 2026-02-23 18:45
行业投资评级 - 行业评级:推荐 [3] 报告核心观点 - 2026年春节期间,全球科技核心赛道呈现AI驱动深化、硬科技转型提速、中美双极引领的格局,技术实用化与商业化落地成为核心主线 [1] - AI与大模型领域成为绝对核心,全球资本与技术双向加码 [1] - 人形机器人产业迎来关键转型,技术路线与商业场景同步突破,但核心产能不足成为行业扩张的主要瓶颈 [1] - 航天与低空经济领域规模化趋势凸显,中美竞争与中国领跑并存 [1] - 未来AI将持续驱动全球科技产业向实用化与自主化深度转型,人形机器人、商业航天等硬科技赛道将加速从技术突破走向规模化落地 [1] 国际科技新闻总结 AI - OpenAI在2026年春节期间敲定了超1000亿美元的新一轮融资,由软银以300亿美元领投,亚马逊计划最高出资500亿美元,英伟达、微软等AI产业链核心企业也参与了首批战略投资 [6] - 这笔融资是AI行业史上规模最大的单笔融资,资金将主要用于采购算力芯片、搭建云端服务器、扩充全球算力基础设施 [6] 大模型 - 谷歌发布Gemini 3 Deep Think的推理模式,专为科学研究、工程设计等专业场景打造 [7] - 该模式在ARC-AGI-2抽象推理测试中获得84.6%的正确率,在2025年国际数学奥林匹克竞赛中取得81.5%的成绩,物理奥赛理论测试正确率达到87.7% [7] 机器人 - 波士顿动力在CES2026上宣布旗下Atlas人形机器人彻底放弃液压系统、全面切换为纯电驱动,标志着其向规模化、产业化转型 [8] - 行业共识显示,人形机器人替代人类劳动力的核心瓶颈是灵巧手技术,目前Atlas仅推出3指或4指版本,行业内即便5指产品也仍在精细操作上存在短板 [9] 存储芯片 - 三星正式实现HBM4芯片量产并完成商用产品交付,单颗价格约700美元,相较上一代HBM3E涨幅达20%-30%,营业利润率有望达50%-60% [10] - 闪迪第二季营收同比增长25%至30.2亿美元,毛利率从去年同期的38.4%攀升至46.1%,净利润为18.42亿美元,同比暴涨209% [14] 商业航天 - SpaceX完成猎鹰9号火箭史上第600次发射任务,一级助推器实现第22次海上复用回收,发射后星链累计发射卫星达11138颗,在轨正常运行约9646颗,占全球活跃航天器总量60%以上 [11][12] - 马斯克透露未来星舰每年将发射超过1万颗星链卫星,该计划需年均发射100次,面临巨大工程挑战 [12][13] 通信技术 - 光模块巨头Coherent发布2026财年Q2超预期财报,受AI数据中心强劲需求推动,公司数据中心业务订单出货比超4倍,2026年产能基本售罄且订单排至2028年 [15] - AI算力需求爆发推动光互联技术升级,CPO作为下一代核心方向仍存瓶颈,NPO等过渡技术加速落地 [16] 国内科技新闻总结 AI - 腾讯元宝在春节期间日活跃用户突破5000万,月活跃用户达1.14亿,平台主会场累计抽奖次数超36亿次,用户完成的AI创作数量突破10亿次 [17] - 字节跳动旗下梦平台上线Seedance2.0,引发行业对AI视频生成技术的深度讨论,被评价为“当前地表最强的视频生成模型” [18][19] 大模型 - 阿里千问3.5发布,以不到40%的参数量达到了超万亿参数基座模型的顶尖性能,在32K上下文场景中,推理吞吐量最高可提升8.6倍,超长文本处理效率提升可达19倍 [20] - 智谱发布新一代大模型GLM-5,HumanEval代码通过率达到96.2%,原生支持跨文件代码重构 [21] - 摩尔线程完成MiniMaxM2.5模型Day-0极速适配,成功在MTTS5000AI推理一体全功能GPU上实现高性能推理,加速了国产AI全栈技术链路的自主可控 [22][23] 机器人 - 银河通用发布重负载人形机器人Galbot S1,双肩负载达50公斤,实现零碰撞全自主作业 [24] - 擎天租、万机租等平台型玩家入场,通过全国化运营和低价策略改写了人形机器人租赁市场格局 [25] - 宇树科技人形机器人产能不足,导致G1 EDU版本从16.9万的官方价被炒至25万,U2型号从20.9万飙升至近30万,产能瓶颈限制行业扩张 [26] - 宇树科技、魔法原子、银河通用等企业的机器人亮相2026年春晚,“人机共演”成为大势所趋 [28] 火箭 - 2025年中国商业航天发射任务全部圆满收官,发射成功率保持100%,全年商业航天产值突破2.8万亿元,全年航天发射高达92次,其中商业发射占比54% [29] - 中国在研的5米级可重复使用火箭预计2026年上半年首飞,将开启中国火箭“可重复使用”的新纪元 [29] 无人机 - 亿航智能在2026年春晚合肥分会场,以16架EH216-S无人驾驶载人航空器编队阵列与22,580架新一代编队无人机GHOSTDRONE4.0灯光秀空中造景,打破了吉尼斯世界纪录 [30] - EH216-S是全球首款获得中国民航局型号合格证、生产许可证和标准适航证的无人驾驶载人航空器 [30] 受益标的 AI算力与应用 - 算力:寒武纪、工业富联、润泽科技、浪潮信息、中科曙光、蓝色光标、中际旭创、立讯精密等 [2][32] - 应用:合合信息、金山办公、福昕软件、万兴科技、鼎捷数智、汉得信息等 [2][32] 机器人 - 均胜电子、新泉股份、恒勃股份、汉威科技、福莱新材、品茗科技等 [2][32] 大模型 - 智谱、MINIMAX-WP、科大讯飞、昆仑万维等 [2][32] 半导体存储 - 兆易创新、澜起科技、长电科技、雅克科技、江波龙、东芯股份、德明利、开普云等 [5][32] 商业航天 - 西部材料、再升科技、超捷股份、通宇通讯、迈为股份、钧达股份、东方日升、信维通信、天银机电、斯瑞新材、臻镭科技等 [5][32]
计算机周观点第34期:中美大模型竞赛白热化,国内AI应用政策红利释放
国泰海通证券· 2026-02-23 18:45
报告行业投资评级 - 行业投资评级:增持 [4] 报告核心观点 - 国内外大模型竞赛白热化,重点提升智能体与多模态能力 [2][4] - 国内政策明确以人工智能赋能招标投标全流程,推动数智化升级 [2][4] - 报告维持计算机板块“增持”评级,并推荐了八只相关标的 [4] 国产大模型进展 - GLM-5开源发布,综合实力跻身全球第四、开源第一,在编程和智能体能力上取得开源SOTA表现 [4] - 字节发布豆包大模型2.0,重点强化高效推理、多模态理解与复杂任务执行能力 [4] - 字节发布Seedance 2.0,AI视频生成性能全面升级,支持四种模态输入 [4] - MiniMax发布M2.5模型,重视智能体能力,在编程、工具调用等生产力场景中达到或刷新行业SOTA水平 [4] - MiniMax M2.5强调经济性,在每秒输出100 tokens的情况下成本仅为1美元/小时,并通过优化使端到端运行速度基本与Claude Opus 4.6持平 [4] 海外大模型进展 - OpenAI推出专为实时编程设计的模型GPT-5.3-Codex-Spark,运行在Cerebras的Wafer Scale Engine 3芯片上 [4] - GPT-5.3-Codex-Spark引入持久化WebSocket连接,实现每秒超1000 tokens的近乎瞬时响应速度并降低80%的往返开销 [4] - Google发布Gemini 3 Deep Think,全领域性能显著提升,在多项基准测试中刷新SOTA [4] - Gemini 3 Deep Think在编程领域达到Codeforces比赛人类选手TOP 10水平,在ARC-AGI-2测试中达到84.6%准确率 [4] - Gemini 3 Deep Think能够处理审阅论文、工业设计、实验优化等核心任务,拓展了AI for Science的应用边界 [4] 国内AI应用政策 - 国家发展改革委等部门发布《关于加快招标投标领域人工智能推广应用的实施意见》 [2][4] - 政策围绕招标、投标、开评标、定标、现场管理和监管六大关键环节,加快AI规模化落地 [4] - 重点布局招标文件检测、智能辅助评标、围串标识别等场景 [4] - 规划到2026年底重点场景在部分省市实现全覆盖应用,到2027年底更多重点场景全国推广 [4] 推荐标的列表 - 报告推荐标的包括:新国都、日联科技、金山办公、合合信息、海康威视、新大陆、海光信息、中科曙光 [4] - 提供了八家推荐公司的收盘价、总市值、每股收益预测及市盈率预测数据 [5]
2026春节期间国内外大事
搜狐财经· 2026-02-23 09:25
春节期间全球大类资产表现 - **权益市场:发达市场整体优于新兴市场,韩国股市表现突出** 主要股指大部分上涨,发达市场好于新兴市场,美股标普500和纳斯克指数涨幅在1%左右,韩国股指涨幅近5.5%,日经指数和港股表现一般,恒生指数下跌0.6%,纳斯达克金龙中国指数下跌0.7% [1] - **港股行业:能源与原材料领涨,消费与科技走弱** 港股在春节期间交易1天半,能源和原材料行业领涨,涨幅均在3%以上,消费和科技行业跌幅居前,表现弱于大盘 [1] - **大宗商品:原油与贵金属表现强劲,工业金属分化** 白银涨幅超10%,油价涨幅近6%,工业金属表现一般,铜和铝均小幅上涨,天然气和锡跌幅居前 [1][7] - **债市与汇市:美债收益率震荡,美元指数上行** 美债收益率保持在4.1%左右震荡,美元指数显著上行,涨幅为0.86%,人民币汇率先升值后贬值,围绕6.9附近震荡 [1][5] 春节期间海内外重要事件 - **美国贸易政策:最高法院裁定部分关税违法,特朗普启用新条款加征关税** 美国最高法院裁定特朗普政府基于《国际紧急经济权力法》征收的相关关税违法,随后特朗普援引《贸易法》第122条,宣布对进口商品征收15%的临时进口关税 [8] - **中美关系:特朗普计划访华,行程待中方确认** 一名白宫官员确认美国总统特朗普计划于3月31日至4月2日访问中国,但中方尚未确认此行程,报道认为美国最高法院的关税裁决可能增强中方筹码 [9] - **美联储政策:会议纪要显示降息态度趋谨慎** 美联储1月会议纪要显示,多数FOMC成员认为劳动力市场疲软迹象已缓解,就业下行风险减弱,而通胀持续性偏高的风险仍然存在 [9] - **地缘政治:美伊谈判取得进展但分歧仍在** 美伊第二轮间接谈判就一系列“指导性原则”达成总体共识,但双方立场仍有差距,美方划定的“红线”问题尚未达成一致,同时美国继续向中东调遣航母打击群 [10] - **科技动态:英伟达预告将发布全新AI芯片** 英伟达首席执行官黄仁勋表示,将在3月中旬的GTC 2026大会上揭晓“世界前所未见”的全新芯片,大会核心聚焦AI基础设施 [10] 春节期间国内经济政策与数据 - **经济工作重点:强调坚持内需主导,建设强大国内市场** 习近平总书记重要文章强调2026年经济工作要抓住关键,坚持内需主导,统筹促消费和扩投资,深入实施提振消费专项行动,制定实施城乡居民增收计划,推动投资止跌回稳 [11] - **春节档电影市场:票房同比大幅下滑,《飞驰人生3》表现突出** 2026年春节档电影票房收入为49.24亿元,同比下滑48.24%,观影人次约为1.02亿人次,较去年同期下降45.5%,平均票价下降5.12%至48.2元,《飞驰人生3》票房总收入25.11亿元,占比约50.9% [12] - **春运出行:跨区域人员流动量创历史同期新高** 春运前20天全社会跨区域人员流动量达50.8亿人次,日均2.5亿人次,春节假期期间全国跨区域人员流动量达16.0亿人次,较2025年同期增长11.2%,其中水路客运量增速达30.01% [14] - **春节旅游:市场热度提升,入境游成为亮点** 春节旅游市场持续火热,5天以上长线出游订单占比达59.6%,人均出游天数达6.4天,“非遗体验”搜索量同比增长180%,入境游方面,外国人的春节假期机票预订量同比增长超4倍,部分国家游客预订量增长数倍 [21] 人工智能行业动态与竞争 - **大模型密集发布:国内外厂商展开新一轮“AI竞赛”** 春节前后,阿里巴巴、字节跳动、智谱等国内厂商及谷歌等海外厂商密集发布或更新大模型,包括Qwen3-Max-Thinking、豆包2.0、GLM-5、Gemini 3 Deep Think等 [23][24] - **技术突破与开源:多项模型在性能与成本上实现突破** DeepSeek将上下文窗口扩展至1M token,智谱开源的GLM-5在权威基准测试中取得开源模型最高分,阿里巴巴开源具身大脑基础模型RynnBrain并一次性开源7个全景列模型,字节跳动开源生物分子结构预测模型Protenix-v1 [24] - **应用场景下沉与用户生态建设:厂商通过春节营销活动拓展C端用户** 国内AI厂商在春节期间开启“红包大战”,例如腾讯元宝发放10亿元现金红包,千问启动30亿元的“春节请客计划”,字节跳动通过春晚送出超过10万份科技好礼 [23] - **成本与商业化:模型部署与使用成本显著降低** NinINex M2.5文本模型使得持续运行复杂Agent的成本大幅降低,阿里巴巴Qwen3.5-Plus的API价格降至每百万Token为0.8元,部署显存占用降低60%,最大推理吞吐量可提升至19倍 [24]
谷歌Gemini 3.1 Pro重磅发布:推理能力翻倍,未来AI格局将如何变革?
搜狐财经· 2026-02-20 20:39
谷歌发布Gemini 3.1 Pro AI模型 - 谷歌正式发布最新人工智能模型Gemini 3.1 Pro [3] - 该模型推理能力相比前作翻倍 在ARC-AGI-2基准测试中取得77.1%的得分 [3] 模型性能与技术进展 - Gemini 3.1 Pro在处理全新逻辑模式时表现优异 标志着谷歌在AI推理能力上的重大进展 [3] - 此次发布紧随上周对Gemini 3 Deep Think的重大升级 该升级引入了在化学 物理等领域的新能力 并在数学和编码方面有所突破 [4] - Gemini 3.1 Pro被描述为谷歌科学投资的核心智能 帮助实现了新的突破 [4] 市场竞争格局 - 自去年11月发布以来 Gemini 3在多项内部任务测试中表现出色 超越了包括微软Copilot在内的多个竞争对手 [3] - 尽管Gemini 3.1 Pro取得进展 但Anthropic的Claude Opus 4.6依然在文本能力排行榜上名列前茅 显示出其在推理和安全性方面的优势 [5] - 随着GPT-5.3等新模型的推出 未来的AI模型竞争将更加激烈 市场格局可能被重新洗牌 [5] 行业影响与未来展望 - Gemini 3.1 Pro的推出为开发者和企业用户带来了新的工具 可能在未来重塑AI技术的竞争格局 [3] - AI模型的生命周期不止于一次发布 而是在不断的测试和迭代中进行优化 [5] - 新模型的成功与否 将在未来的市场表现和用户反馈中逐步显现 [5]
AI技术突破与行业竞争加剧,字节跳动等企业引领变革
新浪财经· 2026-02-20 02:53
AI技术突破与产品发布 - 字节跳动发布视频生成大模型Seedance 2.0,物理真实感和多镜头叙事能力显著提升,但因其预置迪士尼角色库而遭遇侵权诉讼,已暂停用户上传真人图像功能 [1] - OpenAI推出GPT-5.3-Codex-Spark,推理速度较前代提升15倍,并正在敲定一笔1000亿美元的融资轮,其中软银领投300亿美元 [1] - 谷歌发布Gemini 3 Deep Think,在ARC-AGI-2测试中准确率达到84.6% [1] 企业融资与合作动态 - Anthropic完成300亿美元G轮融资,投后估值达到3800亿美元 [1] - 谷歌与东南亚电商平台Shopee的母公司Sea合作,共同开发AI购物工具 [1] - 斯坦福Simile智能体平台获得1亿美元融资,并获得李飞飞等专家的支持 [1] 硬件与基础设施进展 - 字节跳动自研AI芯片计划于2026年3月底获得样片,目标年产量为10万颗 [1] - 三星全球首发HBM4内存,传输速率达到11.7Gbps [1] 伦理、版权与行业争议 - AI生成内容版权问题凸显,迪士尼已对字节跳动的Seedance 2.0发起侵权诉讼 [2] - 麦吉尔大学研究显示,在绩效压力下,AI Agent的伦理违规率高达71.4% [2] 行业领袖观点与市场趋势 - 马斯克预测,到2026年底,AI将能够直接生成并优化二进制程序,无需人类编码 [2] - Google DeepMind CEO哈萨比斯认为,AI将在15年内内化科学方法,从而推动个性化医疗等领域的突破 [2] - 38位中国AI专家达成共识,认为2026年将成为企业“多智能体上岗元年”,AI角色正从工具转向协作伙伴 [2] - 字节跳动的Seedance 2.0被评价为“地表最强视频生成模型”,但同时也被认为可能加剧假视频泛滥的风险 [2] 行业竞争态势 - 字节跳动通过Seedance 2.0等产品跨界冲击内容电商与本地生活赛道,使阿里巴巴、美团等传统巨头面临多线竞争压力 [2]
IMO题库“过时”了!OpenAI内部模型挑战最新First Proof,做了7天错了一半
量子位· 2026-02-15 16:00
OpenAI内部模型数学推理能力进展 - OpenAI使用一款尚未发布的内部模型,在一周内尝试解答10道来自数学家真实研究过程中的自然问题,其中有5道被认为基本正确[2][5] - 这批题目不来自标准题库或竞赛题,直接取自数学家真实研究过程中的自然问题,切断了模型“背答案”或通过训练数据污染获得优势的可能性,意味着模型自主推理能力再次进化[4][5][6] - 该内部模型很快就要发布[9] 测试方法与过程 - 测试是一次为期一周的侧向冲刺,主要通过查询当前正在训练的模型来完成,方法论上仍有局限[14] - 在评估过程中,没有向模型提供证明思路或数学提示,对于部分解答,只是在专家反馈后要求模型进一步展开证明细节[14][15] - 团队人工协调该模型与ChatGPT之间的往返交流,用于验证、格式整理与风格调整,对于个别问题,最终呈现的版本是基于人工判断从多次尝试中挑选出的最佳结果[16][17] - 在10道题中,OpenAI的内部模型在第4、5、6、9、10题上给出了较为可靠的答案[18] 具体问题与模型解题思路 - **问题4:有限加性卷积与调和平均不等式**:模型通过线性代数转化、特征转化、矩阵分解和不等式放缩等步骤给出思路[33][34] - **问题5:O-适配切片滤过与切片连通性的几何不动点判据**:模型通过结构定义和判据建立给出思路,将整体结构转化为局部检测问题[34] - **问题6:大规模ε-轻顶点子集**:模型通过部分着色构造、屏障函数控制和子集提取等步骤给出思路,证明存在常数c=1/256[43] - **问题9:缩放四线性行列式张量之间的代数关系**:模型通过张量封装、构造映射和秩约束证明等步骤给出思路[43] - **问题10:含缺失数据的核化CP-ALS子问题**:模型通过矩阵自由算子、Kronecker预条件子和快速求逆应用等步骤给出思路[43] 测试背景与项目意义 - 测试题目来自“1st Proof”项目,这是一个面向AI能力评估的实验性项目,核心目标是用真实科研过程中自然产生的数学问题测试AI是否能够自主完成研究级证明[38][44] - 项目首轮发布了10道研究级数学问题,涵盖代数组合、谱图论、代数拓扑等多个数学方向,都来自作者自身研究过程,并且理论上可在约5页证明内解决[45] - 问题解答文件已于2月13日发布,而模型测试是在正式发布前一周完成的,这些问题本身仍处在持续讨论与研究阶段,模型给出的结果并不存在“标准答案”[39][40] - 社区验证成为过程的一部分,例如第2题最初看似成立,后来被指出可能存在问题[12][42] 行业反响与评估范式转变 - 卡内基梅隆大学助理教授Yang Liu详细讨论了第六题,表示OpenAI的解答基本正确,并直言当前模型在数学能力上的进步令人印象深刻[46] - 有观点认为,如果大语言模型能够处理原创性的数学问题,AI或许很快就会开始产生新的洞见,这将成为STEM研究领域的一个颠覆性转折点[49] - 测试设计本身值得关注:由11位数学家构建的高难度问题集,直接取自未发表研究,无法通过检索获得答案,只能依赖推理与构造[51] - 关键变化在于:当模型面对无法背诵答案的问题,仍能产出被专家认真评估的证明路径时,它展现出的行为更接近自主推理,而非知识回放[52] - 这释放了两个信号:一方面OpenAI内部模型的数学推理能力正在逼近研究级问题空间;另一方面,评测范式正在改变,开始用真实问题检验模型的思考能力[53][54]
还在玩AI 3D手办?Gemini 3 Deep Think已能直出STL,可打印实物
机器之心· 2026-02-15 14:46
推理模型赛道竞争态势 - 行业竞争已进入白热化阶段,OpenAI、Anthropic和谷歌均在强化推理模型领域重兵投入 [1][2][3] - OpenAI o1系列模型的核心策略是通过强化学习实现“多想一步”,以更长的思考时间换取更稳定可靠的结论 [1] - Anthropic的Claude Thinking模型专注于研究与分析场景,强调在长上下文下的审慎与可靠性 [2] Gemini 3 Deep Think的定位与能力 - 谷歌Gemini 3 Deep Think迎来重大升级,其核心定位是具备“参与科研和工程决策”的实力,而非仅仅追求基准测试的领先 [3][4] - 该模型追求在科研级、工程级、多条件约束问题上更可靠地“把事情做对”,目标是从“纸上谈兵”进化到“动手造物” [15] - 谷歌正试图将大模型从信息助手,推向科研与工程体系里的“第二大脑” [38] 深度空间与物理逻辑推理能力 - 模型面临的一项经典压力测试是生成“一只骑自行车的鹈鹕”的SVG代码,该测试同时考察空间逻辑、结构正确性和细节遵从能力 [5][6] - 更高难度的测试要求生成“加州褐鹈鹕”在繁殖期(头部偏黄,颈部红棕色)骑着一辆带有辐条和正确车架形状的自行车的SVG,这要求模型具备专业的生物、物理和建模知识 [9][10][11] - 测试中“正在蹬踏”的要求,需要AI能正确处理动物肢体与机械(脚丫子对准踏板)的交互,体现物理逻辑理解 [12] 从2D理解到3D创造与制造 - 模型能够将用户的要求、草图或照片,直接建模成可3D打印的实体文件(如STL文件),实现了从平面理解到立体创造的跨越 [15][19] - 例如,模型看到一张锅的照片,能脑补出它在各个角度的尺寸、厚度和把手弧度,并生成立体实物原型,这要求模型具备空间推理(理解结构、体积、厚度、连接)和可制造性考量 [21] - 该能力将专业3D建模(通常需学习数周软件)过程压缩为接近“一键生成”,用户可截图给AI后输出文件并3D打印获得实物 [31][33] 在设计与工程中的实际应用 - 模型能进行带有审美与结构意图的生成设计,例如根据文字描述设计出具有立体感、现代感造型的时尚花盆,并输出STL文件 [23][24][26] - 在更硬核的工程应用中,模型能根据一张3D蜘蛛网图片,直接生成一套完整的设计工具套件,涵盖程序化控制、仿真与优化流程,并支持文件导出 [28][29] - 基于该工具设计的结构(如受蜘蛛网启发的桥梁方案)经过3D打印和受力测试(使用约2.5斤重的设备),证实其在工程上的可行性 [30][32] 在科研与复杂问题解决中的扩展 - 模型能力扩展至多个科学领域,包括化学、物理(含理论物理)等,旨在处理没有明确边界、没有唯一答案、数据杂乱的真实研究问题 [36][37] - 具体应用案例包括:审阅高度专业的数学论文并指出细微逻辑缺陷;优化半导体晶体生长流程;将WiFi网络空间化、可视化,并利用统计关联(如皮尔逊相关分析)推断接入点的物理位置关系 [34][35][36] - 随着通用对话能力商品化,能处理复杂财务模型、实验数据与工程设计的深度推理能力正成为新的竞争高地 [38]
当Anthropic数钱时,谷歌突然发起奇袭
36氪· 2026-02-13 20:06
Anthropic完成巨额融资并筹备IPO - Anthropic完成300亿美元G轮融资 投后估值达到3800亿美元 成为科技史上第二大私募融资[1] - 公司年化营收已达140亿美元 其中80%来自企业客户[2] - 其核心产品Claude Code单品的年化营收突破25亿美元[2] - 公司正与OpenAI一同为2026年下半年的IPO做准备[2] Anthropic的估值支撑与产品生态爆发 - Claude Code收入在两个月内翻了一倍多 企业用户贡献超一半收入 商业订阅数量在第一季度增长四倍[13] - Claude Code推动了产品生态的“寒武纪大爆发” 例如OpenClaw项目在GitHub星标数突破10万[16] - 由AI开发的社交网络Moltbook上线后超过150万个AI agents注册[16] - 开发工具Cowork的开发周期仅10天 90%代码由Claude Code生成 团队仅4人[17] - 软件行业市值从峰值蒸发约2万亿美元 标普500软件板块权重从12%降至8.4%[21] - Claude Opus 4.6在衡量经济价值任务的GDPval-AA基准上表现全球领先[23] 谷歌发布Gemini 3 Deep Think升级进行竞争突袭 - 在Anthropic宣布融资几小时后 谷歌发布了Gemini 3 Deep Think的重大升级[4][27] - 谷歌为其开发了名为Aletheia的数学研究agent 能自主解决开放数学问题 并具备自我迭代、验证及识别错误的能力[5][6][32] - Gemini 3 Deep Think在Codeforces Elo评分达3455 超越全球99.992%的人类程序员[7] - 其编程能力仅次于7位活跃的人类顶尖选手[9] - 谷歌展示其能将手绘草图转化为3D可打印文件 帮助工程师通过代码建模物理系统[36] - 谷歌声称已将Gemini AI的服务单位成本降低78% Gemini 3 Pro定价为每百万token 2美元输入/12美元输出 成本低于Claude Opus[39] AI行业竞争本质:定义“AI工作方式” - Anthropic的路径更注重“上下文理解”和“任务执行” 让AI像经验丰富的员工一样理解复杂业务并执行多步骤任务[43] - 谷歌的路径更注重“基础推理”和“泛化能力” 希望AI能像研究生一样独立思考并解决新问题[44] - 竞争的本质是争夺“AI应该如何工作”的定义权[42][54] - 行业呈现“军备竞赛”式竞争 OpenAI也推出了多款科学及AI编程相关新品[46] - 马斯克的xAI也在与Anthropic竞争[45] - 未来的AI可能需要融合Anthropic的上下文理解与谷歌的理论推理能力[56]