通用人工智能(AGI)
搜索文档
地平线苏菁:智驾又要进入苦日子阶段,这一代深度学习技术可能碰到天花板了
新浪财经· 2025-12-12 22:19
行业技术趋势判断 - 当前一代深度学习技术可能已触及天花板 未来三年内 智能驾驶的发展将侧重于在现有系统上进行极致优化 而非理论内核重构 [1][15] - 特斯拉FSD V12证明了“一段式端到端”技术的可行性 推动了智能驾驶技术范式从规则驱动转向数据驱动 其意义堪比核能从理论迈入工程 [3][4][17][18] - 2024年智能驾驶的“内核重构”本质是深度学习成果的集中释放 但这种技术跃迁大概率不会成为常态 未来产业将从“功能拓展”回归“能力纵深” [7][21] 行业演进方向预测 - “一段式端到端”技术的普及将带来两大趋势:一是智驾系统在未来几年内越来越“类人” 推动L2级辅助驾驶迎来巨大发展红利期 城区辅助驾驶将逐步普及到10万元级别车型;二是L2和L4级别的智驾方法论将统一 有助于以更低成本落地L4系统(Robotaxi) [3][17] - AI和AGI的基础理论在未来三到五年可能不会有全新突破 行业将进入演进和优化阶段 企业竞争可能转向堆叠算力和模型容量 [10][24] 公司产品与业务进展 - 地平线正式发布第四代BPU架构“黎曼” 该架构通过高维数据降维提升模型效率 具备算力更强、效率更高、算子更丰富、能效更优的核心优势 将搭载于征程7系列芯片 [10][24] - 公司基于单征程6M芯片的城区辅助驾驶方案即将量产上车 目标普惠10万元级别市场 [14][26] - 单征程6M城区辅助驾驶的首批合作采用两种模式:芯片工具链合作(合作伙伴包括博世、卓驭、轻舟智航)和算法服务合作(合作伙伴包括电装、酷睿程、智驾大陆) [14][26]
率先跑通行业级AGI,酷特智能升级「中国智造」
36氪· 2025-12-12 21:51
行业趋势与AGI发展背景 - 人工智能行业正经历激进扩张与迭代,明确将进入通用人工智能时代,科技巨头均展现出押注AGI的巨大雄心,例如OpenAI与微软的秘密协议中AGI目标被标价1000亿美元[2] - 理想的超级人工智能将渗透进各行各业并随时间变得强大,人工智能系统正以“务实”路径发展,并在特定领域取得突破[2] - 中国“以应用为导向”的市场成为人工智能务实落地、深入产业的重要观察样本[2] - 在AI重塑全球产业格局的背景下,制造业正爆发出未来潜力,中国智能制造产业总规模已突破4.5万亿元[3] 酷特智能的AGI实践与突破 - 酷特智能是一家深耕20多年的智能制造企业,已从服装个性化智能定制企业脱胎换骨为C2M产业互联网AI科技智能体企业[2][3] - 公司通过二十余年的技术打磨与数据积累,将AI深度融入服装生产全流程,并于2025年跑通了行业级通用人工智能——酷特AGI[3] - 酷特AGI打破了“通用人工智能遥不可及”的固有认知,证明立足自身领域深耕细作,将数据资源转化为资产,就能让AI技术发挥实实在在的价值[8] - 根据公司数据,在AGI支持下,智造管理成本降低50%以上,总体效率提升20%以上[8] - 公司的科研应用以定制业务C2M为核心场景,以数千人的自有工厂为实战试验田,构建起可信可控的PDCA研发闭环,为技术落地奠定坚实基础[7] 酷特AGI的核心架构:数智化企业级操作系统 - 酷特智能开创了企业AI原生应用新范式,其核心由数智化企业级操作系统、智能体企业、智能体企业集群三大协同支撑的产业应用构成[4] - 数智化企业级操作系统是企业全域智能中枢,由三款AI原生核心产品构成[4] - **酷小匠**:需求侧AI设计师,打通客户定制需求与生产环节信息壁垒,实现从客户创意到车间生产的数据自动流转,无需人工转译,可秒级解析需求并自动生成版型、工艺单等[4] - **酷小易**:运营侧AI运营助手,将AI生成的策略实时转化为具体任务,全程监控进度并实时汇报,主打“对话即工作”模式,推动管理从“人找数”转变为“数助人”[5] - **酷小智**:治理侧AI组织架构师,依据任务执行结果动态评估并优化企业制度与流程,构建“战略—计划—执行—反馈”高速闭环,支持自然语言开发与零代码应用生成[5] - 三大产品相互协同,搭建起覆盖“需求—运营—治理”全链路的柔性制造智能中枢,将酷特AGI技术能力转化为企业可直接使用的工具[5] 对行业与组织模式的深刻重塑 - 酷特AGI旨在彻底突破数据治理、组织变革和传统ERP的桎梏[12] - 公司目标不仅是打造更智能的工厂,而是打造一个全新供应链基础设施、智能体集群网络、去中心化、高度柔性的产业生态系统,旨在重塑产业结构[14] - 公司创始人基于对服装行业过去数十年遭受的系统冲击的洞察,提出“需供时代”概念,认为竞争关键在于谁能最快把定制化需求转成交付[14] - 公司二十多年前的应对模式是C2M,让企业以规模化生产应对消费者的定制化需求,这一方向已成为主流,据中投产业研究院报告,2030年全球柔性制造市场规模或达1.8亿元,其中中国市场占35%[14] - 在公司的工厂试验田中,没有厂长、车间主任等传统管理层级,完全由人工智能系统运作经营,生产要素如同积木被AGI拼搭组合为有序高效的企业[15] - 公司当前的布局证明其有机会解决智能时代的核心挑战,其系统不停留在概念,在真实订单与生产线上跑通,拥有可复制、可扩展机制[15] 市场应用、合作与未来愿景 - 酷特AGI追求极致的简单与低成本,让智能体易操作、好上手,目前基本做到了零迁移成本[19] - 全球大量追求个性化、柔性化快速迭代的服装品牌再次把目光投向中国,酷特智能已拿下多个服装产业客户的合作订单[21] - 公司凭借“一人一版,一衣一款,一件一流,7个工作日交付”的体系,承接更多企业的高定制化需求[21] - 公司愿景是建成100个智能体企业集群,打造服务50万人的高阶智能化需供供应链系统[21] - 公司与韩国apM集团合作在上海新天地打造apM CUBE中国首店,并引进韩国时尚品牌KWL,意味着人工智能原生的供应链正在倒逼零售结构发生变化,实现前端需求与后端制造的实时联动[21] - 公司正处在技术、市场与政策三重力量共同催化的窗口期,政府工作报告强调“人工智能+”行动,支持数字技术与制造优势、市场优势结合及大规模应用[23] - 在展望的未来“黄金十年”里,酷特AGI将持续通过系统化赋能,帮助企业优化生产力结构,为需供时代的企业进化提供可落地、可复制的数智化转型路径[26]
谷歌:通用人工智能(AGI)技术安全保障方法研究报告
欧米伽未来研究所2025· 2025-12-12 21:43
文章核心观点 - 谷歌DeepMind发布了一份145页的重磅技术报告《AGI技术安全与保障方法》,系统性地阐述了应对通用人工智能潜在极端风险的整体战略和工程蓝图,标志着顶级AI实验室的安全治理从被动响应转向主动防御 [1] 风险认知与防御逻辑 - 报告认为传统的“观察-缓解”模式已不适用,主张采取预防性技术路径,构建针对“滥用”和“失配”两大核心风险的严密防御纵深 [1] - 报告基于“AI能力无明确人类天花板”和“近似连续性”的假设,提出“随时可用”的防御策略,通过持续监测当前模型的危险能力边界来建立动态风险评估机制,不依赖于对未来能力的精准预测 [2] AGI风险分类 - 报告将可能导致严重后果的风险划分为四大类:滥用、失配、错误和结构性风险,其中滥用和失配因涉及恶意意图而被列为技术防御的重中之重 [3] 应对滥用风险的技术防线 - 核心逻辑是“阻断威胁主体获取危险能力”,依托于“前沿安全框架”来识别和评估模型的危险能力(如网络攻击、生物武器研发辅助)[4] - 具体手段包括:严格的访问控制和防泄漏机制以保护模型权重、训练后的安全微调、能力抑制(“遗忘”特定危险知识)以及实时监控 [4] - 强调通过“红队测试”模拟高水平攻击者来极限施压,验证防御体系的有效性 [4] 应对失配风险的技术防线 - 第一条防线是“构建对齐的模型”,重点讨论了“放大监督”技术,即利用AI辅助人类监督AI,例如通过“辩论”机制让两个AI系统竞争,人类只需判断辩论逻辑漏洞 [6] - 第二条防线是“防御未对齐的模型”,引入计算机安全中的“零信任”理念,假设模型可能已经失配,通过层级化监控体系、物理隔离和权限管理来限制AI对现实世界的操控能力 [7] 安全论证与可验证性 - 报告引入了系统工程中的“安全论证案例”概念,要求为高风险AGI系统提供结构化论证,例如“能力缺失论证”和“控制有效性论证”,将AI安全提升至类似核工业的严格准入标准 [8] - 强调“可解释性”研究是关键赋能技术,旨在深入模型内部理解其决策的神经机制,以实现“谎言探测”或“欺骗意图识别”等高级功能,为安全论证提供证据 [8] - 还提到“更安全的设计模式”和“不确定性估计”等辅助手段,例如设计能在面临不确定性时主动寻求人类反馈的智能体 [9] 技术方案的局限性与协同需求 - 报告坦承技术防御只是半壁江山,必须与有效的全球治理、行业标准以及社会适应性措施相结合,才能真正构建起AGI的安全屏障,避免因监管标准不一而引发“逐底竞争”[9]
德银深度报告:真假AI泡沫,究竟谁在裸泳?
华尔街见闻· 2025-12-12 20:13
文章核心观点 - 德意志银行认为当前AI热潮并非单一泡沫,而是由估值泡沫、投资泡沫和技术泡沫三种不同性质的泡沫构成,关键在于区分不同类型的“泡沫”[1] - 公开市场大型科技公司的估值有盈利支撑,投资增长符合趋势且由现金流推动,技术进步仍在持续,真正的风险集中在估值过高的私营公司、可能失控的循环融资结构,以及潜在的技术瓶颈和供应限制[1] 估值泡沫分析 - 希勒周期调整市盈率已超过40,接近2000年互联网泡沫顶峰的44倍水平,显示市场过热[2] - 整体估值较高,但自2022年10月以来,标普500指数一直在22.7%的年化增长趋势通道内运行,目前处于该通道的低端[4] - 大型科技股的估值溢价约60%,但这一溢价得到了20%以上的盈利增长差异支撑[6] - 当前科技股估值并未达到互联网泡沫时期的极端水平,且盈利增长正在向更广泛的行业扩散[7] - 私营公司估值过高:OpenAI基于2025年130亿美元预测收入计算的市销率达38倍,Anthropic更是高达44倍[9] - 公开市场科技巨头估值相对合理:英伟达市销率仅为22倍,微软12倍,谷歌9.9倍,亚马逊3.5倍,表明公开市场定价相对理性[9] 投资泡沫分析 - 超大规模云服务商的资本支出预计到2026年将达到5000亿美元,累计到2030年可能达到4万亿美元,超过阿波罗计划通胀调整后成本的10倍[11] - 自2013年以来,全球科技资本支出年增长率为12.3%,当前增长仍在这一趋势通道内[13] - 大型科技公司的投资回报率自AI周期开始以来持续上升,通过云客户需求、AI工具和编程成本节约产生实际回报[14] - 与互联网泡沫时期的债务驱动不同,当前AI投资主要由自由现金流支撑,谷歌第三季度运营现金流达480亿美元[17] - 超大规模云服务商的资本支出与运营现金流比率普遍低于1,显示出健康的财务状况[17] 技术泡沫分析 - 生成式AI仍容易出错和产生幻觉,难以大规模应用[16] - AI的快速扩展可能很快遭遇物理瓶颈,例如芯片间数据传输速度的限制[16] - 2025年11月谷歌推出的Gemini 3证明AI尚未触及天花板,在多模态能力方面取得重大进展[21] - Gemini 3在“人类最后的考试”中超越所有先前模型,在视觉推理方面的得分是GPT-5 Pro在ARC-AGI-2测试中的三倍[21] - 在MMLU基准测试中得分至少42分的最便宜大语言模型成本已下降1000倍,遵循杰文斯悖论,效率提升和成本降低推动消费增长[24] 需求与增长空间 - 谷歌10月透露其每月处理1300万亿个令牌,较2024年4月的9.7万亿大幅增长[20] - 据美国商业趋势和前景调查,目前仍不到10%的美国企业在使用AI,显示巨大的增长空间[20] 泡沫破裂的潜在触发点 - 循环融资引发估值不透明:OpenAI在八年内承诺1.4万亿美元的计算购买,涉及英伟达、AMD、甲骨文、微软、亚马逊等多方交叉投资和购买协议,这种结构可能导致估值不透明,一旦某个环节断裂可能引发连锁反应[27] - 债务激增成本失控:2025年美元投资级债券发行量已超过350亿美元,微软、谷歌、Meta、亚马逊和甲骨文的净债务与EBITDA比率正在上升[30] - 技术障碍与规模效应递减:从Llama 2到Grok 4,训练计算成本从1000万美元飙升至10亿美元以上[32] - 基于数据中心支出在5年内开发AGI的概率从2022年的接近100%降至2025年的约20%[32] - 社会政治反弹:在英国和欧盟,20%以上的受访者非常担心AI会在未来几年抢走他们的工作,发达市场更多抵制更大规模的AI使用,可能导致客户抵制、员工抵抗和限制性监管[34] - 供应瓶颈:2030年电力需求预计将是2020年的四倍,美国家庭今年已经支付创纪录的电价,每千瓦时达到约17美分,能源供应可能成为AI采用和变现的最大障碍[37]
OpenAI十周年「血色浪漫」:11位联创出走8位,奥特曼深夜发文
36氪· 2025-12-12 15:17
公司发展历程与现状 - 公司成立于2015年底,最初是一个没有明确盈利模式、产品和研究路线的AI研究实验室[14] - 公司目前估值达到800亿美元,员工人数超过1000名,打造了全球用户最多的大语言模型[7] - 公司每周有8亿人使用其产品,超过100万家企业基于其技术开发业务[35] - 最初的11位联合创始人中,目前仅有3位仍留在公司[7] 核心技术突破与产品化 - 2017年是一个关键转折点,AI语言模型中发现了“情感神经元”,开始理解语义而不仅是语法[16][17] - GPT系列的开端源于研究员Alec Radford在文本预测实验中的偶然发现[10] - 公司采用“迭代式部署”策略,不等技术完美就发布产品,边用边改,现已成为行业默认配置[23][24][25][26] - 产品创新由研究驱动,例如Sora视频模型最初目标是研究“AI理解物理世界”,后演变为产品[36][38] - “AI智能体”的突破来自内部关于推理能力的研究项目,能将几小时的任务缩短至几分钟[38] 公司文化与运营理念 - 公司早期最宝贵的资产并非技术,而是一种解决下一个问题的执念和文化[15] - 公司内部是真正的“自下而上”模式,没有自上而下的路线图,鼓励研究员大胆想、自由做[39][40][41] - 公司节奏极快,必须每天做好准备,因为“昨天对的事情,今天可能就不成立了”[44] - 公司将安全视为每个团队的责任和系统工程,而非上线前的最后检查项,早期就投入对齐研究[45][46][47] - 公司多次逆势而行,在AGI被嘲笑、Scaling Law被看衰、AI实用化被质疑时坚持己见并最终证明正确[50][51][52][53] 使命与未来展望 - 公司创立时的目标是开发安全的通用人工智能,最初被认为疯狂且不切实际[12] - 公司的使命是构建对全人类有益的AGI,产品被视为实现该目标的手段而非终点[57][58] - 在GPT-4发布后,公司认为AGI不再是胡扯[20] - 公司对未来的研究和产品路线图非常看好,认为再有十年时间几乎可以肯定能造出超级智能[30] - 公司内部相信智能是推动人类飞跃的核心力量,其正在制造一种前所未有的“智能生产力”[54][55]
深度|AI教母李飞飞:在AI时代,信任绝不能外包给机器,它本质上属于人类,存在于个体、社区与社会层面
Z Potentials· 2025-12-12 12:15
文章核心观点 - 人工智能的下一阶段是发展空间智能与世界建模能力,这将超越当前以语言为核心的大型语言模型,实现对物理和虚拟世界的深刻理解、表征与互动,从而开启全新的创造、推理与应用范式 [4][5][7] 空间智能与世界建模的定义与重要性 - 空间智能是对层次丰富、复杂空间世界的深刻理解,是具身智能(如机器人)的“大脑”,它完善了感知-行动的闭环并提升认知能力 [6][11] - 世界建模不仅包含语言,还涵盖视觉、光线、语义、空间以及物理动作,是对世界状态变化的表达、表征和亲身参与 [7] - 感知在进化上是主动的,其根本目的是为了行动与互动,感知智能构成了所有运动的基石 [11] - 许多人类文明的关键里程碑,如金字塔建造和DNA双螺旋结构的发现,都依赖于深度的空间推理与世界建模,而无法仅靠语言完成 [12] 应用前景与影响 - 世界建模能力将带来前所未有的创造自由,允许生成可置身其间、可互动的完整世界,应用场景涵盖娱乐、叙事、设计、工业、医疗健康及教育等领域 [8] - 机器凭借世界建模生成沉浸式体验的能力极其强大,并自然延伸至仿真,这对人类体验、学习以及具身AI的训练至关重要 [9] - 为AI系统引入空间智能后,将涌现新的推理特征,其价值不仅在于让机器人完成简单任务,更在于整体提升人类能力,协同开拓全新的认知与创造空间 [12] - 自动驾驶汽车作为在二维平面移动的“方盒子”,实现自动驾驶花了二十多年,而作为三维、核心任务是“正确触碰”的机器人,其技术发展之路还很长 [14] 人工智能的产业地位与信任 - AI是一项文明级技术,是新的计算范式,只要有芯片和计算的地方,AI迟早会出现,因此从商业和应用层面看,AI毫无疑问代表未来 [13] - 在AI时代,信任绝不能外包给机器,它本质上属于人类,存在于个体、社区与社会层面,必须将新的规范织入社会肌理,并将信任纳入治理模型进行迭代 [6][15] - 对于创业者而言,无论开发何种产品或业务,从一开始就要重视信任,其根源始终来自人的主动性 [15] 创新精神与文化 - 科学家和创业者都需要保持“智识上的无畏”(Fearless),即心怀无所畏惧的精神,以摆脱束缚创造力、勇气和执行力的枷锁 [16] - 当确定无疑的简单任务与充满不确定性的任务难度相当时,应选择更不确定的那一条,因为在不确定中,创造力会被逼至极限,奇迹才能发生 [6][17]
豆包手机助手火出圈,不妨以“包容审慎”视之
新京报· 2025-12-12 10:51
文章核心观点 - 豆包手机助手作为AI智能代理新范式 在技术预览阶段因系统级权限和跨应用操作引发部分应用访问受限及操作安全担忧 其发展触及现行规则边界 行业和公众需以“包容审慎”态度对待 为创新留出试错空间[1][3] 产品技术与功能 - 豆包手机助手由字节跳动豆包团队于12月1日发布技术预览版 通过与手机厂商深度合作获得操作手机和便捷调用大模型的能力[1] - 核心突破在于深度理解用户意图 直接调用整合不同应用程序功能与服务以完成复杂任务 例如用户发出语音指令后 助手能在数秒内横跨多个购物平台完成比价并给出购物指引 将原本需几十次点击的任务简化为一次指令[1][2] 行业意义与发展前景 - 此类AI助手体现了智能时代通过AI隐藏复杂功能、让设备回归“以人为本”的核心特征 预计将不仅提高工作效率 更将深刻改变生活方式[2] - 从更大视野看 此类AI助手可能是通用人工智能融入日常生活的重要接口 未来或成为AI应用重要落地场景 也是相关企业和行业参与全球AI竞争、构建自主创新生态的关键前沿[2] - 在全球主要国家将AI视为战略制高点的背景下 适度鼓励此类创新具有重要意义[2] 当前挑战与治理框架 - 产品发售不久后 一些App限制豆包手机助手的访问 其获得的系统级权限引发网友对操作安全的担忧[1] - 豆包手机助手遇到的“成长的烦恼”是AI创新深入社会肌理时必然经历的阵痛 提前触碰到未来智能社会将频繁面临的规则、安全与伦理挑战[3] - 处理此案例的态度与方法具有显著信号意义 监管者、行业与公众需共同构建一个既能激励创新活力又能有效管控风险的动态治理框架[3]
一文读懂GPT-5.2 : 直指“经济价值”,硬刚Gemini3的剧情未出现
36氪· 2025-12-12 08:49
产品发布与核心定位 - OpenAI于北京时间12月12日凌晨发布GPT-5.2系列模型,将其定义为“迄今为止功能最强大的专业知识工作模型系列”,设计初衷在于“创造更大的经济价值” [1] - 此次发布包含三款模型:GPT-5.2 Instant(优化响应速度)、GPT-5.2 Thinking(深度推理)、GPT-5.2 Pro(高端版本),以满足从日常轻量对话到复杂科研的不同需求 [4][7] - 与主要竞争对手Google的Gemini 3定位不同,GPT-5.2清晰明确指向专业知识场景,强调“经济价值”,显示出更强的商业战略定力 [2] 性能与基准测试表现 - 在覆盖9大行业、44类职业1320个真实业务场景的GDPval基准测试中,GPT-5.2 Pro在高达74.1%的任务中表现超越或持平人类专家 [1] - GPT-5.2 Thinking在GDPval任务集中“胜出或持平”的占比达到70.9%,在等效任务中完成速度超过专业人士11倍以上,同时成本低于1% [17] - 在多项关键评估基准上取得当前公开模型中的最高成绩,例如:SWE-Bench Pro达55.6%,GPQA Diamond达92.4%,AIME 2025数学竞赛达100%,ARC-AGI-1抽象推理达86.2% [13][18] - 在更难的SWE-Bench Pro代码测试中显著提升,被开发者评价为“自 GPT-5 以来最大的智能跃升” [5] - 在长上下文推理方面,支持最高256k tokens输入,并在“四针(4-needle)”检索任务中实现接近100%准确率 [5][26] - 在事实性方面,GPT-5.2 Thinking在匿名真实查询集合上的错误率相较上一代下降约30% [23] 企业级应用与合作伙伴反馈 - 模型聚焦于提升企业用户的专业工作流效率,包括表格处理、演示文稿生成、代码编写、图像理解、工具调用、多文件工程任务处理等能力 [14] - 多家早期合作企业(如Notion, Databricks, Cognition)测试表明,模型在长链条推理、数据分析和代码审查等任务中的错误率显著下降,一致性与稳定性得到明显改善,更适合作为“公司级智能体”的核心引擎 [1][18] - 在智能体工具调用方面,GPT-5.2 Thinking在Tau2-bench Telecom多轮客服任务的工具调用测试中取得98.7%完成度 [30] - 在“多工具编排任务”中表现更稳定,能够在单次会话中处理二十多个工具调用步骤,并在系统提示显著简化的情况下维持高一致性 [18] 定价与商业化策略 - 采用分层API定价策略,GPT-5.2 Instant与GPT-5.2 Thinking采用统一计费标准,输入单价为每百万tokens 1.75美元,输出单价为每百万tokens 14美元 [8] - 高端版本GPT-5.2 Pro定价更高,输入单价达每百万tokens 21美元,输出单价为每百万tokens 168美元,价格高于GPT-5.1但低于其他前沿模型 [8] - 公司强调,尽管Pro版本单价更高,但在真实智能体任务中具备更高的token使用效率,因此在部分企业场景中,完成同等质量任务的整体成本反而可能降低 [8] - 根据ArcPrize测算,GPT-5.2的性价比继续提升,一年内效率提升了约390倍 [9] 视觉与多模态能力 - 视觉空间理解能力增强,在图像中元素的位置把握上更强,有助于解决相对布局关键的任务 [34] - 图表推理和界面理解能力显著增强,软件界面识别错误率减少约一半,在CharXiv(科研图表推理)中准确率提升约8个百分点 [32] 安全与部署 - 延续“safe completion”训练框架,重点强化心理健康、风险倾向、敏感身份类对话场景的表现 [41] - 公司正式宣布开始部署年龄预测系统,可在疑似未成年用户使用模型时自动切换到受限模式与额外安全过滤 [41] - GPT-5.2系列已向Plus、Pro、Go、Business、Enterprise用户陆续开放,并同步上线API,面向工程与程序员群体的GPT-5.2 Codex将在未来数周内推出 [11] 行业背景与公司动态 - 发布前一周多,公司首席执行官萨姆·奥特曼在给员工的私人信息中宣布进入“红色警戒”状态,调集更多资源投入ChatGPT,但公司否认GPT-5.2的发布是受此影响而匆忙提前 [2][4] - 行业对于GPT-5.2的预期为硬刚Gemini 3,夺回SOTA(最先进技术水平) [2] - 发布后,奥特曼暗示下周还会有新的模型(产品)发布 [42] - 就在发布几小时前,OpenAI宣布获得迪士尼10亿美元的投资 [43]
刚刚,GPT-5.2满分屠榜,OpenAI十周年王者归来
机器之心· 2025-12-12 07:48
文章核心观点 - OpenAI在成立十周年之际发布了GPT-5.2系列模型,该系列在专业知识工作、长上下文推理、视觉理解、工具调用及科学数学等多个关键领域实现了显著的性能飞跃,重新确立了行业领先地位 [1][2][3] 产品发布与定位 - OpenAI发布了GPT-5.2系列,包括为日常工作与学习打造的GPT-5.2 Instant,为专业级工作全面提升标准的GPT-5.2 Thinking,以及面对困难问题时最聪明、最值得信赖的GPT-5.2 Pro [3] - 该系列模型的设计目标是为人们创造更多经济价值,在制作表格、演示文稿、编写代码、理解图像、处理超长上下文及执行复杂多步骤项目方面均有显著提升 [5] - 公司CEO山姆・奥特曼表示,GPT-5.2是OpenAI很长一段时间以来最大的一次升级 [13] 性能基准与突破 - **知识工作与生产力**:GPT-5.2 Thinking在GDPval基准上取得70.9%的分数,成为首个达到或超过人类专家水平的AI模型 [8][12][15]。在执行GDPval任务时,其生成输出速度超过专家11倍以上,成本低于1% [15] - **编程能力**:在SWE-Bench Pro(涵盖四种编程语言)上取得55.6%的SOTA成绩,在SWE-bench Verified上取得80.0%的新最高分 [8][23][26] - **科学数学能力**:在GPQA Diamond基准上,GPT-5.2 Pro达到93.2%,GPT-5.2 Thinking达到92.4% [8][60]。在AIME 2025(数学)基准上取得100%的分数 [8][9]。在FrontierMath (Tier 1-3)专家级数学评估中,GPT-5.2 Thinking解决了40.3%的问题 [8][62] - **抽象推理**:在ARC-AGI-2 (Verified)基准上,GPT-5.2 Thinking取得52.9%的分数,GPT-5.2 Pro达到54.2% [8][65] - **幻觉率降低**:在一组真实用户查询上,GPT-5.2 Thinking含错误的回答相对GPT-5.1 Thinking减少了30% [31] - **长上下文推理**:在OpenAI MRCRv2基准上达到业界最先进水平,是首个在4-needle MRCR变体(长度可达256k tokens)上达到接近100%准确率的模型 [36][38] - **视觉理解**:在图表推理和软件界面理解方面的错误率几乎降低了一半,对图像中元素位置关系的理解更加透彻 [44][49] - **工具调用**:在Tau2-bench Telecom上取得98.7%的SOTA成绩,展示了在长链路、多轮任务中可靠使用工具的能力 [53] 具体应用场景提升 - **电子表格与演示文稿**:在内部投行分析师能力测试的电子表格建模基准中,GPT-5.2 Thinking的平均得分比GPT-5.1提升了9.3%,从59.1%上升到68.4% [19]。对比显示,在生成电子表格与演示文稿时,专业度与排版质量有显著提升 [20] - **前端工程**:在前端开发以及复杂或非常规的UI设计(尤其是包含3D元素的界面)方面的能力显著增强 [26] - **客户服务与工作流**:能够更有效地协调跨多个智能体的完整工作流,例如管理包含重新预订、特殊协助和赔偿的复杂客服任务链 [56] 定价与可用性 - ChatGPT将于发布日(文章发布日)开始逐步向付费用户(Plus、Pro、Go、Business和Enterprise版本)推出GPT-5.2系列 [71] - API平台提供GPT-5.2 Thinking (gpt-5.2)、GPT-5.2 Instant (gpt-5.2-chat-latest)和GPT-5.2 Pro (gpt-5.2-pro) [72] - 定价方面:gpt-5.2输入价格为每百万token 1.75美元,输出为14美元;gpt-5.2-pro输入为21美元,输出为168美元 [75] - ChatGPT订阅价格保持不变,付费用户可在三个月内继续使用GPT-5.1 [71][74] 行业背景与公司愿景 - 此次发布正值OpenAI成立十周年,公司回顾了从早期研究到ChatGPT和GPT-4发布,再到如今GPT-5.2的历程,强调了其使命是确保AGI造福全人类 [77][81] - 公司对研发和产品路线图感到乐观,并相信在未来十年内几乎肯定能够打造出超级智能 [81] - GPT-5.2是与长期合作伙伴英伟达和Microsoft合作开发的,由Azure数据中心和英伟达GPU(包括H100、H200和GB200-NVL72)提供算力支持 [75]
微软AI高管承诺:若超级智能威胁人类,就停止开发
华尔街见闻· 2025-12-12 02:37
微软AI战略与伦理立场 - 微软消费人工智能主管Mustafa Suleyman承诺,若超级智能对人类构成威胁,将立即停止相关开发工作,并致力于打造“与人类利益相符”的系统 [1] - 该主管认为“不会继续开发有可能失控的系统”应成为行业共识,并指出微软的伦理立场在行业中具有独特性 [1] 微软与OpenAI关系重塑 - 微软与OpenAI在去年10月达成协议,重塑了双方关系,使微软获得了此前受限的开发权,包括通用人工智能和超级智能 [1][2] - 此前微软因合同条款限制无法开发通用人工智能或超级智能,作为交换,微软为OpenAI建设和配备数据中心 [2] - 协议调整后,微软有权开发自己的AI,Suleyman称过去18个月公司已是AGI开发机构,现在可以研究在所有任务上超越人类表现的技术 [2] MAI超级智能团队目标 - Suleyman于11月宣布成立并亲自领导MAI超级智能团队,明确将构建“仅为服务人类而设计”的实用技术 [1][2] - 该团队聚焦医疗诊断、教育等领域的实际问题,而非“不明确且空灵的超级智能” [2] - 团队首个目标是开发在医疗诊断等特定领域能力远超人类的AI,旨在实现全方位诊断的专家级表现及临床运营环境中的高规划预测能力 [3] 行业竞争与公司策略 - 微软的举措呼应了Meta等竞争对手在超级智能领域的类似努力 [3] - Suleyman强调微软“不会不惜一切代价、不设限制地构建超级智能”,以回应投资者对AI支出回报路径的担忧 [3] - 微软持续降低对OpenAI的依赖,已开始使用谷歌和Anthropic的模型,并持有OpenAI重组后的1350亿美元股权 [4] 技术发展现状 - 尽管畅谈超级智能愿景,但当前技术仍在发展中,类似ChatGPT的AI系统距离满足消费者和企业期望仍有差距 [4] - 微软Copilot消费助手的智能代理功能“并非总是准确”,仍处于开发试验阶段 [4]