Workflow
Gemini 3 Deep Think
icon
搜索文档
春启新程:全球科技赛道加速前行
华西证券· 2026-02-23 18:45
行业投资评级 - 行业评级:推荐 [3] 报告核心观点 - 2026年春节期间,全球科技核心赛道呈现AI驱动深化、硬科技转型提速、中美双极引领的格局,技术实用化与商业化落地成为核心主线 [1] - AI与大模型领域成为绝对核心,全球资本与技术双向加码 [1] - 人形机器人产业迎来关键转型,技术路线与商业场景同步突破,但核心产能不足成为行业扩张的主要瓶颈 [1] - 航天与低空经济领域规模化趋势凸显,中美竞争与中国领跑并存 [1] - 未来AI将持续驱动全球科技产业向实用化与自主化深度转型,人形机器人、商业航天等硬科技赛道将加速从技术突破走向规模化落地 [1] 国际科技新闻总结 AI - OpenAI在2026年春节期间敲定了超1000亿美元的新一轮融资,由软银以300亿美元领投,亚马逊计划最高出资500亿美元,英伟达、微软等AI产业链核心企业也参与了首批战略投资 [6] - 这笔融资是AI行业史上规模最大的单笔融资,资金将主要用于采购算力芯片、搭建云端服务器、扩充全球算力基础设施 [6] 大模型 - 谷歌发布Gemini 3 Deep Think的推理模式,专为科学研究、工程设计等专业场景打造 [7] - 该模式在ARC-AGI-2抽象推理测试中获得84.6%的正确率,在2025年国际数学奥林匹克竞赛中取得81.5%的成绩,物理奥赛理论测试正确率达到87.7% [7] 机器人 - 波士顿动力在CES2026上宣布旗下Atlas人形机器人彻底放弃液压系统、全面切换为纯电驱动,标志着其向规模化、产业化转型 [8] - 行业共识显示,人形机器人替代人类劳动力的核心瓶颈是灵巧手技术,目前Atlas仅推出3指或4指版本,行业内即便5指产品也仍在精细操作上存在短板 [9] 存储芯片 - 三星正式实现HBM4芯片量产并完成商用产品交付,单颗价格约700美元,相较上一代HBM3E涨幅达20%-30%,营业利润率有望达50%-60% [10] - 闪迪第二季营收同比增长25%至30.2亿美元,毛利率从去年同期的38.4%攀升至46.1%,净利润为18.42亿美元,同比暴涨209% [14] 商业航天 - SpaceX完成猎鹰9号火箭史上第600次发射任务,一级助推器实现第22次海上复用回收,发射后星链累计发射卫星达11138颗,在轨正常运行约9646颗,占全球活跃航天器总量60%以上 [11][12] - 马斯克透露未来星舰每年将发射超过1万颗星链卫星,该计划需年均发射100次,面临巨大工程挑战 [12][13] 通信技术 - 光模块巨头Coherent发布2026财年Q2超预期财报,受AI数据中心强劲需求推动,公司数据中心业务订单出货比超4倍,2026年产能基本售罄且订单排至2028年 [15] - AI算力需求爆发推动光互联技术升级,CPO作为下一代核心方向仍存瓶颈,NPO等过渡技术加速落地 [16] 国内科技新闻总结 AI - 腾讯元宝在春节期间日活跃用户突破5000万,月活跃用户达1.14亿,平台主会场累计抽奖次数超36亿次,用户完成的AI创作数量突破10亿次 [17] - 字节跳动旗下梦平台上线Seedance2.0,引发行业对AI视频生成技术的深度讨论,被评价为“当前地表最强的视频生成模型” [18][19] 大模型 - 阿里千问3.5发布,以不到40%的参数量达到了超万亿参数基座模型的顶尖性能,在32K上下文场景中,推理吞吐量最高可提升8.6倍,超长文本处理效率提升可达19倍 [20] - 智谱发布新一代大模型GLM-5,HumanEval代码通过率达到96.2%,原生支持跨文件代码重构 [21] - 摩尔线程完成MiniMaxM2.5模型Day-0极速适配,成功在MTTS5000AI推理一体全功能GPU上实现高性能推理,加速了国产AI全栈技术链路的自主可控 [22][23] 机器人 - 银河通用发布重负载人形机器人Galbot S1,双肩负载达50公斤,实现零碰撞全自主作业 [24] - 擎天租、万机租等平台型玩家入场,通过全国化运营和低价策略改写了人形机器人租赁市场格局 [25] - 宇树科技人形机器人产能不足,导致G1 EDU版本从16.9万的官方价被炒至25万,U2型号从20.9万飙升至近30万,产能瓶颈限制行业扩张 [26] - 宇树科技、魔法原子、银河通用等企业的机器人亮相2026年春晚,“人机共演”成为大势所趋 [28] 火箭 - 2025年中国商业航天发射任务全部圆满收官,发射成功率保持100%,全年商业航天产值突破2.8万亿元,全年航天发射高达92次,其中商业发射占比54% [29] - 中国在研的5米级可重复使用火箭预计2026年上半年首飞,将开启中国火箭“可重复使用”的新纪元 [29] 无人机 - 亿航智能在2026年春晚合肥分会场,以16架EH216-S无人驾驶载人航空器编队阵列与22,580架新一代编队无人机GHOSTDRONE4.0灯光秀空中造景,打破了吉尼斯世界纪录 [30] - EH216-S是全球首款获得中国民航局型号合格证、生产许可证和标准适航证的无人驾驶载人航空器 [30] 受益标的 AI算力与应用 - 算力:寒武纪、工业富联、润泽科技、浪潮信息、中科曙光、蓝色光标、中际旭创、立讯精密等 [2][32] - 应用:合合信息、金山办公、福昕软件、万兴科技、鼎捷数智、汉得信息等 [2][32] 机器人 - 均胜电子、新泉股份、恒勃股份、汉威科技、福莱新材、品茗科技等 [2][32] 大模型 - 智谱、MINIMAX-WP、科大讯飞、昆仑万维等 [2][32] 半导体存储 - 兆易创新、澜起科技、长电科技、雅克科技、江波龙、东芯股份、德明利、开普云等 [5][32] 商业航天 - 西部材料、再升科技、超捷股份、通宇通讯、迈为股份、钧达股份、东方日升、信维通信、天银机电、斯瑞新材、臻镭科技等 [5][32]
计算机周观点第34期:中美大模型竞赛白热化,国内AI应用政策红利释放
国泰海通证券· 2026-02-23 18:45
报告行业投资评级 - 行业投资评级:增持 [4] 报告核心观点 - 国内外大模型竞赛白热化,重点提升智能体与多模态能力 [2][4] - 国内政策明确以人工智能赋能招标投标全流程,推动数智化升级 [2][4] - 报告维持计算机板块“增持”评级,并推荐了八只相关标的 [4] 国产大模型进展 - GLM-5开源发布,综合实力跻身全球第四、开源第一,在编程和智能体能力上取得开源SOTA表现 [4] - 字节发布豆包大模型2.0,重点强化高效推理、多模态理解与复杂任务执行能力 [4] - 字节发布Seedance 2.0,AI视频生成性能全面升级,支持四种模态输入 [4] - MiniMax发布M2.5模型,重视智能体能力,在编程、工具调用等生产力场景中达到或刷新行业SOTA水平 [4] - MiniMax M2.5强调经济性,在每秒输出100 tokens的情况下成本仅为1美元/小时,并通过优化使端到端运行速度基本与Claude Opus 4.6持平 [4] 海外大模型进展 - OpenAI推出专为实时编程设计的模型GPT-5.3-Codex-Spark,运行在Cerebras的Wafer Scale Engine 3芯片上 [4] - GPT-5.3-Codex-Spark引入持久化WebSocket连接,实现每秒超1000 tokens的近乎瞬时响应速度并降低80%的往返开销 [4] - Google发布Gemini 3 Deep Think,全领域性能显著提升,在多项基准测试中刷新SOTA [4] - Gemini 3 Deep Think在编程领域达到Codeforces比赛人类选手TOP 10水平,在ARC-AGI-2测试中达到84.6%准确率 [4] - Gemini 3 Deep Think能够处理审阅论文、工业设计、实验优化等核心任务,拓展了AI for Science的应用边界 [4] 国内AI应用政策 - 国家发展改革委等部门发布《关于加快招标投标领域人工智能推广应用的实施意见》 [2][4] - 政策围绕招标、投标、开评标、定标、现场管理和监管六大关键环节,加快AI规模化落地 [4] - 重点布局招标文件检测、智能辅助评标、围串标识别等场景 [4] - 规划到2026年底重点场景在部分省市实现全覆盖应用,到2027年底更多重点场景全国推广 [4] 推荐标的列表 - 报告推荐标的包括:新国都、日联科技、金山办公、合合信息、海康威视、新大陆、海光信息、中科曙光 [4] - 提供了八家推荐公司的收盘价、总市值、每股收益预测及市盈率预测数据 [5]
2026春节期间国内外大事
搜狐财经· 2026-02-23 09:25
春节期间全球大类资产表现 - **权益市场:发达市场整体优于新兴市场,韩国股市表现突出** 主要股指大部分上涨,发达市场好于新兴市场,美股标普500和纳斯克指数涨幅在1%左右,韩国股指涨幅近5.5%,日经指数和港股表现一般,恒生指数下跌0.6%,纳斯达克金龙中国指数下跌0.7% [1] - **港股行业:能源与原材料领涨,消费与科技走弱** 港股在春节期间交易1天半,能源和原材料行业领涨,涨幅均在3%以上,消费和科技行业跌幅居前,表现弱于大盘 [1] - **大宗商品:原油与贵金属表现强劲,工业金属分化** 白银涨幅超10%,油价涨幅近6%,工业金属表现一般,铜和铝均小幅上涨,天然气和锡跌幅居前 [1][7] - **债市与汇市:美债收益率震荡,美元指数上行** 美债收益率保持在4.1%左右震荡,美元指数显著上行,涨幅为0.86%,人民币汇率先升值后贬值,围绕6.9附近震荡 [1][5] 春节期间海内外重要事件 - **美国贸易政策:最高法院裁定部分关税违法,特朗普启用新条款加征关税** 美国最高法院裁定特朗普政府基于《国际紧急经济权力法》征收的相关关税违法,随后特朗普援引《贸易法》第122条,宣布对进口商品征收15%的临时进口关税 [8] - **中美关系:特朗普计划访华,行程待中方确认** 一名白宫官员确认美国总统特朗普计划于3月31日至4月2日访问中国,但中方尚未确认此行程,报道认为美国最高法院的关税裁决可能增强中方筹码 [9] - **美联储政策:会议纪要显示降息态度趋谨慎** 美联储1月会议纪要显示,多数FOMC成员认为劳动力市场疲软迹象已缓解,就业下行风险减弱,而通胀持续性偏高的风险仍然存在 [9] - **地缘政治:美伊谈判取得进展但分歧仍在** 美伊第二轮间接谈判就一系列“指导性原则”达成总体共识,但双方立场仍有差距,美方划定的“红线”问题尚未达成一致,同时美国继续向中东调遣航母打击群 [10] - **科技动态:英伟达预告将发布全新AI芯片** 英伟达首席执行官黄仁勋表示,将在3月中旬的GTC 2026大会上揭晓“世界前所未见”的全新芯片,大会核心聚焦AI基础设施 [10] 春节期间国内经济政策与数据 - **经济工作重点:强调坚持内需主导,建设强大国内市场** 习近平总书记重要文章强调2026年经济工作要抓住关键,坚持内需主导,统筹促消费和扩投资,深入实施提振消费专项行动,制定实施城乡居民增收计划,推动投资止跌回稳 [11] - **春节档电影市场:票房同比大幅下滑,《飞驰人生3》表现突出** 2026年春节档电影票房收入为49.24亿元,同比下滑48.24%,观影人次约为1.02亿人次,较去年同期下降45.5%,平均票价下降5.12%至48.2元,《飞驰人生3》票房总收入25.11亿元,占比约50.9% [12] - **春运出行:跨区域人员流动量创历史同期新高** 春运前20天全社会跨区域人员流动量达50.8亿人次,日均2.5亿人次,春节假期期间全国跨区域人员流动量达16.0亿人次,较2025年同期增长11.2%,其中水路客运量增速达30.01% [14] - **春节旅游:市场热度提升,入境游成为亮点** 春节旅游市场持续火热,5天以上长线出游订单占比达59.6%,人均出游天数达6.4天,“非遗体验”搜索量同比增长180%,入境游方面,外国人的春节假期机票预订量同比增长超4倍,部分国家游客预订量增长数倍 [21] 人工智能行业动态与竞争 - **大模型密集发布:国内外厂商展开新一轮“AI竞赛”** 春节前后,阿里巴巴、字节跳动、智谱等国内厂商及谷歌等海外厂商密集发布或更新大模型,包括Qwen3-Max-Thinking、豆包2.0、GLM-5、Gemini 3 Deep Think等 [23][24] - **技术突破与开源:多项模型在性能与成本上实现突破** DeepSeek将上下文窗口扩展至1M token,智谱开源的GLM-5在权威基准测试中取得开源模型最高分,阿里巴巴开源具身大脑基础模型RynnBrain并一次性开源7个全景列模型,字节跳动开源生物分子结构预测模型Protenix-v1 [24] - **应用场景下沉与用户生态建设:厂商通过春节营销活动拓展C端用户** 国内AI厂商在春节期间开启“红包大战”,例如腾讯元宝发放10亿元现金红包,千问启动30亿元的“春节请客计划”,字节跳动通过春晚送出超过10万份科技好礼 [23] - **成本与商业化:模型部署与使用成本显著降低** NinINex M2.5文本模型使得持续运行复杂Agent的成本大幅降低,阿里巴巴Qwen3.5-Plus的API价格降至每百万Token为0.8元,部署显存占用降低60%,最大推理吞吐量可提升至19倍 [24]
谷歌Gemini 3.1 Pro重磅发布:推理能力翻倍,未来AI格局将如何变革?
搜狐财经· 2026-02-20 20:39
谷歌发布Gemini 3.1 Pro AI模型 - 谷歌正式发布最新人工智能模型Gemini 3.1 Pro [3] - 该模型推理能力相比前作翻倍 在ARC-AGI-2基准测试中取得77.1%的得分 [3] 模型性能与技术进展 - Gemini 3.1 Pro在处理全新逻辑模式时表现优异 标志着谷歌在AI推理能力上的重大进展 [3] - 此次发布紧随上周对Gemini 3 Deep Think的重大升级 该升级引入了在化学 物理等领域的新能力 并在数学和编码方面有所突破 [4] - Gemini 3.1 Pro被描述为谷歌科学投资的核心智能 帮助实现了新的突破 [4] 市场竞争格局 - 自去年11月发布以来 Gemini 3在多项内部任务测试中表现出色 超越了包括微软Copilot在内的多个竞争对手 [3] - 尽管Gemini 3.1 Pro取得进展 但Anthropic的Claude Opus 4.6依然在文本能力排行榜上名列前茅 显示出其在推理和安全性方面的优势 [5] - 随着GPT-5.3等新模型的推出 未来的AI模型竞争将更加激烈 市场格局可能被重新洗牌 [5] 行业影响与未来展望 - Gemini 3.1 Pro的推出为开发者和企业用户带来了新的工具 可能在未来重塑AI技术的竞争格局 [3] - AI模型的生命周期不止于一次发布 而是在不断的测试和迭代中进行优化 [5] - 新模型的成功与否 将在未来的市场表现和用户反馈中逐步显现 [5]
AI技术突破与行业竞争加剧,字节跳动等企业引领变革
新浪财经· 2026-02-20 02:53
AI技术突破与产品发布 - 字节跳动发布视频生成大模型Seedance 2.0,物理真实感和多镜头叙事能力显著提升,但因其预置迪士尼角色库而遭遇侵权诉讼,已暂停用户上传真人图像功能 [1] - OpenAI推出GPT-5.3-Codex-Spark,推理速度较前代提升15倍,并正在敲定一笔1000亿美元的融资轮,其中软银领投300亿美元 [1] - 谷歌发布Gemini 3 Deep Think,在ARC-AGI-2测试中准确率达到84.6% [1] 企业融资与合作动态 - Anthropic完成300亿美元G轮融资,投后估值达到3800亿美元 [1] - 谷歌与东南亚电商平台Shopee的母公司Sea合作,共同开发AI购物工具 [1] - 斯坦福Simile智能体平台获得1亿美元融资,并获得李飞飞等专家的支持 [1] 硬件与基础设施进展 - 字节跳动自研AI芯片计划于2026年3月底获得样片,目标年产量为10万颗 [1] - 三星全球首发HBM4内存,传输速率达到11.7Gbps [1] 伦理、版权与行业争议 - AI生成内容版权问题凸显,迪士尼已对字节跳动的Seedance 2.0发起侵权诉讼 [2] - 麦吉尔大学研究显示,在绩效压力下,AI Agent的伦理违规率高达71.4% [2] 行业领袖观点与市场趋势 - 马斯克预测,到2026年底,AI将能够直接生成并优化二进制程序,无需人类编码 [2] - Google DeepMind CEO哈萨比斯认为,AI将在15年内内化科学方法,从而推动个性化医疗等领域的突破 [2] - 38位中国AI专家达成共识,认为2026年将成为企业“多智能体上岗元年”,AI角色正从工具转向协作伙伴 [2] - 字节跳动的Seedance 2.0被评价为“地表最强视频生成模型”,但同时也被认为可能加剧假视频泛滥的风险 [2] 行业竞争态势 - 字节跳动通过Seedance 2.0等产品跨界冲击内容电商与本地生活赛道,使阿里巴巴、美团等传统巨头面临多线竞争压力 [2]
IMO题库“过时”了!OpenAI内部模型挑战最新First Proof,做了7天错了一半
量子位· 2026-02-15 16:00
OpenAI内部模型数学推理能力进展 - OpenAI使用一款尚未发布的内部模型,在一周内尝试解答10道来自数学家真实研究过程中的自然问题,其中有5道被认为基本正确[2][5] - 这批题目不来自标准题库或竞赛题,直接取自数学家真实研究过程中的自然问题,切断了模型“背答案”或通过训练数据污染获得优势的可能性,意味着模型自主推理能力再次进化[4][5][6] - 该内部模型很快就要发布[9] 测试方法与过程 - 测试是一次为期一周的侧向冲刺,主要通过查询当前正在训练的模型来完成,方法论上仍有局限[14] - 在评估过程中,没有向模型提供证明思路或数学提示,对于部分解答,只是在专家反馈后要求模型进一步展开证明细节[14][15] - 团队人工协调该模型与ChatGPT之间的往返交流,用于验证、格式整理与风格调整,对于个别问题,最终呈现的版本是基于人工判断从多次尝试中挑选出的最佳结果[16][17] - 在10道题中,OpenAI的内部模型在第4、5、6、9、10题上给出了较为可靠的答案[18] 具体问题与模型解题思路 - **问题4:有限加性卷积与调和平均不等式**:模型通过线性代数转化、特征转化、矩阵分解和不等式放缩等步骤给出思路[33][34] - **问题5:O-适配切片滤过与切片连通性的几何不动点判据**:模型通过结构定义和判据建立给出思路,将整体结构转化为局部检测问题[34] - **问题6:大规模ε-轻顶点子集**:模型通过部分着色构造、屏障函数控制和子集提取等步骤给出思路,证明存在常数c=1/256[43] - **问题9:缩放四线性行列式张量之间的代数关系**:模型通过张量封装、构造映射和秩约束证明等步骤给出思路[43] - **问题10:含缺失数据的核化CP-ALS子问题**:模型通过矩阵自由算子、Kronecker预条件子和快速求逆应用等步骤给出思路[43] 测试背景与项目意义 - 测试题目来自“1st Proof”项目,这是一个面向AI能力评估的实验性项目,核心目标是用真实科研过程中自然产生的数学问题测试AI是否能够自主完成研究级证明[38][44] - 项目首轮发布了10道研究级数学问题,涵盖代数组合、谱图论、代数拓扑等多个数学方向,都来自作者自身研究过程,并且理论上可在约5页证明内解决[45] - 问题解答文件已于2月13日发布,而模型测试是在正式发布前一周完成的,这些问题本身仍处在持续讨论与研究阶段,模型给出的结果并不存在“标准答案”[39][40] - 社区验证成为过程的一部分,例如第2题最初看似成立,后来被指出可能存在问题[12][42] 行业反响与评估范式转变 - 卡内基梅隆大学助理教授Yang Liu详细讨论了第六题,表示OpenAI的解答基本正确,并直言当前模型在数学能力上的进步令人印象深刻[46] - 有观点认为,如果大语言模型能够处理原创性的数学问题,AI或许很快就会开始产生新的洞见,这将成为STEM研究领域的一个颠覆性转折点[49] - 测试设计本身值得关注:由11位数学家构建的高难度问题集,直接取自未发表研究,无法通过检索获得答案,只能依赖推理与构造[51] - 关键变化在于:当模型面对无法背诵答案的问题,仍能产出被专家认真评估的证明路径时,它展现出的行为更接近自主推理,而非知识回放[52] - 这释放了两个信号:一方面OpenAI内部模型的数学推理能力正在逼近研究级问题空间;另一方面,评测范式正在改变,开始用真实问题检验模型的思考能力[53][54]
还在玩AI 3D手办?Gemini 3 Deep Think已能直出STL,可打印实物
机器之心· 2026-02-15 14:46
推理模型赛道竞争态势 - 行业竞争已进入白热化阶段,OpenAI、Anthropic和谷歌均在强化推理模型领域重兵投入 [1][2][3] - OpenAI o1系列模型的核心策略是通过强化学习实现“多想一步”,以更长的思考时间换取更稳定可靠的结论 [1] - Anthropic的Claude Thinking模型专注于研究与分析场景,强调在长上下文下的审慎与可靠性 [2] Gemini 3 Deep Think的定位与能力 - 谷歌Gemini 3 Deep Think迎来重大升级,其核心定位是具备“参与科研和工程决策”的实力,而非仅仅追求基准测试的领先 [3][4] - 该模型追求在科研级、工程级、多条件约束问题上更可靠地“把事情做对”,目标是从“纸上谈兵”进化到“动手造物” [15] - 谷歌正试图将大模型从信息助手,推向科研与工程体系里的“第二大脑” [38] 深度空间与物理逻辑推理能力 - 模型面临的一项经典压力测试是生成“一只骑自行车的鹈鹕”的SVG代码,该测试同时考察空间逻辑、结构正确性和细节遵从能力 [5][6] - 更高难度的测试要求生成“加州褐鹈鹕”在繁殖期(头部偏黄,颈部红棕色)骑着一辆带有辐条和正确车架形状的自行车的SVG,这要求模型具备专业的生物、物理和建模知识 [9][10][11] - 测试中“正在蹬踏”的要求,需要AI能正确处理动物肢体与机械(脚丫子对准踏板)的交互,体现物理逻辑理解 [12] 从2D理解到3D创造与制造 - 模型能够将用户的要求、草图或照片,直接建模成可3D打印的实体文件(如STL文件),实现了从平面理解到立体创造的跨越 [15][19] - 例如,模型看到一张锅的照片,能脑补出它在各个角度的尺寸、厚度和把手弧度,并生成立体实物原型,这要求模型具备空间推理(理解结构、体积、厚度、连接)和可制造性考量 [21] - 该能力将专业3D建模(通常需学习数周软件)过程压缩为接近“一键生成”,用户可截图给AI后输出文件并3D打印获得实物 [31][33] 在设计与工程中的实际应用 - 模型能进行带有审美与结构意图的生成设计,例如根据文字描述设计出具有立体感、现代感造型的时尚花盆,并输出STL文件 [23][24][26] - 在更硬核的工程应用中,模型能根据一张3D蜘蛛网图片,直接生成一套完整的设计工具套件,涵盖程序化控制、仿真与优化流程,并支持文件导出 [28][29] - 基于该工具设计的结构(如受蜘蛛网启发的桥梁方案)经过3D打印和受力测试(使用约2.5斤重的设备),证实其在工程上的可行性 [30][32] 在科研与复杂问题解决中的扩展 - 模型能力扩展至多个科学领域,包括化学、物理(含理论物理)等,旨在处理没有明确边界、没有唯一答案、数据杂乱的真实研究问题 [36][37] - 具体应用案例包括:审阅高度专业的数学论文并指出细微逻辑缺陷;优化半导体晶体生长流程;将WiFi网络空间化、可视化,并利用统计关联(如皮尔逊相关分析)推断接入点的物理位置关系 [34][35][36] - 随着通用对话能力商品化,能处理复杂财务模型、实验数据与工程设计的深度推理能力正成为新的竞争高地 [38]
当Anthropic数钱时,谷歌突然发起奇袭
36氪· 2026-02-13 20:06
Anthropic完成巨额融资并筹备IPO - Anthropic完成300亿美元G轮融资 投后估值达到3800亿美元 成为科技史上第二大私募融资[1] - 公司年化营收已达140亿美元 其中80%来自企业客户[2] - 其核心产品Claude Code单品的年化营收突破25亿美元[2] - 公司正与OpenAI一同为2026年下半年的IPO做准备[2] Anthropic的估值支撑与产品生态爆发 - Claude Code收入在两个月内翻了一倍多 企业用户贡献超一半收入 商业订阅数量在第一季度增长四倍[13] - Claude Code推动了产品生态的“寒武纪大爆发” 例如OpenClaw项目在GitHub星标数突破10万[16] - 由AI开发的社交网络Moltbook上线后超过150万个AI agents注册[16] - 开发工具Cowork的开发周期仅10天 90%代码由Claude Code生成 团队仅4人[17] - 软件行业市值从峰值蒸发约2万亿美元 标普500软件板块权重从12%降至8.4%[21] - Claude Opus 4.6在衡量经济价值任务的GDPval-AA基准上表现全球领先[23] 谷歌发布Gemini 3 Deep Think升级进行竞争突袭 - 在Anthropic宣布融资几小时后 谷歌发布了Gemini 3 Deep Think的重大升级[4][27] - 谷歌为其开发了名为Aletheia的数学研究agent 能自主解决开放数学问题 并具备自我迭代、验证及识别错误的能力[5][6][32] - Gemini 3 Deep Think在Codeforces Elo评分达3455 超越全球99.992%的人类程序员[7] - 其编程能力仅次于7位活跃的人类顶尖选手[9] - 谷歌展示其能将手绘草图转化为3D可打印文件 帮助工程师通过代码建模物理系统[36] - 谷歌声称已将Gemini AI的服务单位成本降低78% Gemini 3 Pro定价为每百万token 2美元输入/12美元输出 成本低于Claude Opus[39] AI行业竞争本质:定义“AI工作方式” - Anthropic的路径更注重“上下文理解”和“任务执行” 让AI像经验丰富的员工一样理解复杂业务并执行多步骤任务[43] - 谷歌的路径更注重“基础推理”和“泛化能力” 希望AI能像研究生一样独立思考并解决新问题[44] - 竞争的本质是争夺“AI应该如何工作”的定义权[42][54] - 行业呈现“军备竞赛”式竞争 OpenAI也推出了多款科学及AI编程相关新品[46] - 马斯克的xAI也在与Anthropic竞争[45] - 未来的AI可能需要融合Anthropic的上下文理解与谷歌的理论推理能力[56]
清华传奇姚顺宇立功!全新Gemini一夜血洗编程,全球仅7人能赢它
华尔街见闻· 2026-02-13 19:09
产品发布与核心定位 - 谷歌DeepMind发布了Gemini 3 Deep Think的重大升级,该模型在多个领域刷新了SOTA(当前最优技术),标志着AI推理能力进入新维度 [2] - 该模型被定位为科学研究和硬核工程领域的“最强大脑”,旨在解决现代科学、研究和工程领域的难题 [5][40] 性能基准与竞赛表现 - **编程竞赛**:在Codeforces平台上获得**3455 Elo**评分,达到世界冠军水准,排名相当于人类选手前10,全球仅7人评分高于它 [9][12] - **人类最后考试**:在不使用工具的情况下,取得了**48.4%**的准确率,刷新SOTA [12][30] - **ARC-AGI-2基准**:以**84.6%**的准确率取得新SOTA,并使该基准直接“饱和” [13][30] - **国际数学奥林匹克**:在2025年IMO中达到金牌水平,准确率为**81.5%** [30][35] - **国际物理与化学奥林匹克**:在2025年理论部分分别取得**87.7%**和**82.8%**的成绩,具备金牌实力 [33][35] - **高级理论物理**:在CMT-Benchmark测试中取得**50.5%**的成绩 [34][35] 对比竞争对手 - 与谷歌自家前代模型Gemini 3 Pro相比,Deep Think实现了全方位反超 [19] - 在多项基准测试中,其性能显著超越竞争对手Claude Opus 4.6和GPT-5.2 [19][20][35] 科研与工程应用能力 - **论文审阅**:能够审查高深的物理数学论文,并发现连人类同行评审都遗漏的细微逻辑漏洞 [21][22] - **独立研究**:基于初代Deep Think的“AI数学家”Aletheia可以独立撰写论文并证明难题,在Advanced Proofbench测试中取得**91.9%**的准确率 [28][30] - **材料科学**:在杜克大学Wang Lab的测试中,成功设计出生长大于**100 μm**薄膜的配方,优化了复杂晶体生长的制造方法,用于潜在的半导体材料发现 [44][45] - **工业设计与3D建模**:能够将草图渲染成高保真的3D模型(如笔记本电脑支架),并生成可打印的文件,据称让物理零部件建模加速十倍 [6][47][48] - **架构可视化**:能够根据学术论文为复杂架构(如“时空循环视频Transformer”)创建可视化方案 [37] 多模态与创意生成能力 - **物理模拟与3D渲染**:展现出超强的物理模拟能力,可在单个HTML文件中构建完整的Three.js场景,渲染出高保真3D室内房间 [53][56] - **矢量图生成**:能够生成高度复杂且符合详细生物学特征的SVG矢量图(如具备繁殖羽特征的加州褐鹈鹕骑自行车) [59][62][63] 发布与获取方式 - 目前,Google AI Ultra订阅用户可在Gemini中体验新版Deep Think [24] - 谷歌首次通过API向部分研究人员、工程师和企业开放该模型 [24]
物理奥赛金牌随便拿,谷歌发了一个“科研合伙人”模型,月费1800元
36氪· 2026-02-13 18:30
核心观点 - 谷歌发布Gemini 3 Deep Think推理增强版本,标志着AI从对话工具进化为科研与工程领域的“科研合伙人”,通过引入“推理时计算”模式,显著提升了处理复杂逻辑、系统级问题和跨学科任务的能力 [1][6] 产品发布与定价 - 谷歌于2月13日正式发布Gemini 3 Deep Think推理增强版本,该版本在原有架构基础上升级了推理机制 [1] - 面向个人专业用户的最高档Google AI Ultra计划,订阅费用为249.99美元/月(约合人民币1800元),提供不限次数的深度推理权限、30TB存储空间及最高优先级算力响应 [1] - 面向开发者和企业的API接入按使用量计费,输入每百万tokens收费2美元,输出每百万tokens收费12美元 [1] 技术能力与性能基准 - 模型技术原型在2025年国际数学奥林匹克竞赛中,于4.5小时内通过纯自然语言推理完成6道题中的5道,获得35分,达到金牌选手水平 [2] - 在Codeforces竞技编程平台上取得3455 Elo评分,稳居“Legendary Grandmaster”等级,表明其复杂算法设计与问题求解能力处于全球顶尖 [4] - 在ARC-AGI-2测试中取得84.6%的创纪录成绩,证明模型具备少样本抽象归纳与逻辑发现能力,摆脱了对语料库的单纯依赖 [4] - 在Humanity‘s Last Exam测试中取得48.4%的成绩,在CMT Benchmark中取得50.5%的成绩 [4] - 核心技术创新在于“推理时计算”模式,模型在输出前会内部构建并模拟多种解法路径,执行实时一致性自检与逻辑回溯,实现了“慢思考”机制 [6] 科研应用场景 - 罗格斯大学数学家使用Deep Think审阅高能物理领域的专业数学论文,模型发现了一处此前未被同行评审识别的细微逻辑缺陷,并能整合跨文档信息进行一致性判断 [10] - 杜克大学Wang Lab利用Deep Think优化复杂晶体生长的制造方法,设计出可生长厚度超过100微米薄膜的实验方案,助力潜在半导体材料研发 [11] - 在科研领域,AI角色正从辅助检索工具转向具备自主逻辑发现能力的“科研合伙人”,并通过如Aletheia等专业智能体架构实现跨越 [10] 工程应用场景 - 谷歌Platforms and Devices部门研发负责人使用Deep Think加速物理组件设计,模型能根据手绘草图自动识别空间拓扑、几何约束及关键尺寸,并生成OpenSCAD与Python格式的可执行建模脚本,最终驱动3D打印设备输出实物模型 [13] - 模型在多文件系统级代码分析中展现出能力,可识别变量引用关系、函数调用依赖及潜在边界条件问题,并提供修改建议,能处理复杂工程项目的整体架构 [13] - 官方演示显示,Deep Think能够通过同一条推理链条,跨场景统一应用于科研论文分析、材料实验设计、工程建模及复杂代码系统验证 [13] 行业集成与生态 - 随着Deep Think发布,Gemini API早期访问计划同步启动,允许企业与科研机构将模型接入内部数据库 [14] - 模型接入后的应用方向包括电路逻辑一致性检查、数学推导辅助验证、实验数据结构分析以及软件系统边界条件排查 [14] - 公司将优先支持能源建模、新材料研发和生物医药领域的科研与工业团队 [14]