世界模型
搜索文档
纪源资本对话银河通用机器人:让具身智能真正实现可落地
创业邦· 2026-01-20 11:29
公司概况与市场地位 - 银河通用机器人是一家专注于具身智能领域的公司,成立已有两年半时间[7] - 该公司是中国未上市的具身智能企业中融资总额最高的机器人公司[7] - 公司创始人及首席技术官王鹤是90后,拥有斯坦福大学博士学位,师从美国三院院士,并是北京大学具身智能实验室的创始人与管理者[5] 核心技术路径与数据策略 - 公司认为具身智能面临的核心困境是“数据冷启动”,即缺乏机器人与物理世界丰富交互产生的数据[9] - 公司的核心技术策略是采用物理仿真加合成数据来解决冷启动问题,使用超过99%的合成数据加上不到1%的真实世界数据,使具身智能实现可落地[11] - 公司强调具身智能的核心是能根据任务与环境不断自适应,背后是数据驱动的智能内核,区别于传统按固定程序作业的机器人[12] - 在技术模型上,公司认为世界模型是一种学习手段,但并非智能的全部,也不是第一性原理;Inverse Model(面对指令让身体反应出行动)更符合第一性原理[16] 产品应用与商业化进展 - 公司的智慧零售机器人(零售太空舱)已在全国数十个城市的近百家店铺提供零售服务[11][17] - 零售太空舱可以实现7*24小时体验,在人流密集区(如北京王府井、上海外滩等)完成从取货到交付的全过程,具备视觉引导、语音理解、灵活移动和抓取能力[17] - 公司已在全国落地几十家完全由其机器人运营的智慧药仓,发挥快速准确抓药的能力[18] - 公司发布了灵巧手神经动力学模型DexNDM,使通用灵巧手首次能在任意姿态、轴向下稳定旋转复杂物体,例如使用五指握住小改锥拧螺丝,这将打开几千亿、几万亿的装配和操作市场[20] - 公司产品已形成导航、抓取、放置的第一代技能基模,并正拓展处理桌面物体、货架物体及深框中物体的能力[18] 行业发展观点与市场展望 - 公司认为具身智能的发展是渐进的、缓慢的,不会出现类似“ChatGPT Moment”的质变,而是需要数据积累、模型闭环部署和硬件迭代的漫长过程[20] - 公司不认同在技术不完善时让机器人立即进入家庭(C端市场)是好的发展路径,认为应务实起步,从能真正做事的场景开始[21] - 公司规划的发展路径是:从零售业起步,然后进入工业领域,再打入康养行业,最终进入家庭[24] - 选择零售业切入是因为该行业劳动力需求大且容错率相对较高,模型达到99%准确率即可商用[22] - 公司认为中国在具身智能赛道上的优势包括:硬件供应链齐全、数据积累优势(尤其在不依赖实体机器人的数据合成手段方面)、以及巨大的市场能构建良好商业生态[24] - 公司认为发展具身智能是对“中国制造”的延续,目标是在未来社会面临劳动力短缺时(例如2040年后大学毕业生数量减半),能为人才市场补足一亿劳动力[25] - 在可预见的10到20年内,具身智能扮演的角色不会是抢夺人们的工作,社会有足够弹性应对劳动力结构变化[26]
机器人行业周报:1XTechnologies发布世界模型,SkildAI获14亿美元融资
国泰海通证券· 2026-01-20 11:15
报告行业投资评级 - 行业评级:增持 [5] 报告的核心观点 - 海外具身智能加速落地,1X Technologies发布“世界模型”推动机器人迈向完全自主,欧洲人形机器人开启规模化工厂部署 [5][7] - 国内人形机器人产业在产量规模与数据要素上实现双向突破,新品发布、高危场景应用及数据交易标志着产业进入快速发展阶段 [5][8][10][12] - 投融资市场高度活跃,资本持续加码机器人“大脑”研发、整机企业及供应链,推动行业从硬件竞争向通用模型与泛化能力竞争转变 [5][13] 行业新闻及公司动态总结 - **海外进展**:OpenAI投资的1X Technologies为其NEO人形机器人发布“1X World Model”,使机器人能通过视频模型进行行动规划与执行,展现出处理未训练过的新任务的泛化能力 [5][7];英国人形机器人公司Humanoid与舍弗勒达成五年战略合作,计划将数百台人形机器人引入其生产设施,初期进行测试验证,后续计划采用机器人即服务模式 [5][7];硅谷投资人盛赞特斯拉即将推出的Optimus V3人形机器人,认为其将超越特斯拉汽车业务的成就 [5][7] - **国内进展**:矩阵超智发布新一代人形机器人MATRIX-3,计划于2026年下半年规模化投产,旨在打造安全、自主、可执行多样化任务的物理智能机器人 [5][8];开普勒人形机器人K2在工厂成功完成全球首例“人机协作”20米高空焊接作业,连续工作8小时,验证了其在工业高危场景的应用能力 [5][10];湖北完成全国首单企业间具身智能数据交易,向智元机器人出售数千小时的人形机器人训练数据,优化后机器人效率快速提升 [5][12];CES 2026展会中,中国人形机器人企业集体亮相,参展企业至少28家,占比过半,全方位展示技术实力 [5][12];根据Omdia报告,中国在2025年的人形机器人产量已超过美国,其中AgiBot年出货量超过5100台,全球市场份额达39% [12] 投融资动态总结 - **重大融资事件**:美国机器人公司Skild AI获得由软银、英伟达等领投的14亿美元融资,公司估值超140亿美元,融资将用于研发机器人通用“大脑” [5][13];国内通用具身智能企业自变量机器人完成由字节跳动领投的10亿元A++轮融资 [5][13];全球首个机器人租赁平台“擎天租”完成种子轮融资,平台上线三周内注册用户突破20万,日均租赁订单稳定在200单以上 [13] - **供应链进展**:蓝思科技已确定成为北美头部机器人客户的首批核心供应商,其头部模组已通过客户认证 [5][13] 投资建议总结 - **市场表现**:上周机器人板块相关公司成交金额为11605亿元,占全部A股周度成交金额约6.7%,环比下降 [14];周度重点公司涨多跌少,汉威科技涨幅最大为10.60%,亿嘉和涨幅为6.30% [17] - **投资方向**:报告建议重点关注机器人整机厂商及核心零部件供应商,并列出具体推荐及关注标的,涵盖执行器和电机、减速器、丝杠及设备、轴承、传感器、精密零部件等八大类别 [5][18]
地平线再下一城......
自动驾驶之心· 2026-01-20 08:39
北汽与地平线成立合资公司事件 - 2026年1月4日,北汽与地平线合资成立北京智驭科技有限公司,北汽持股65%,地平线持股35%,主要负责智能辅助驾驶产品落地[4] - 双方已基于双地平线征程6M芯片方案,开发全场景城市NOA系统[5] 主机厂与供应商的智驾合作模式 - 行业主要有三种合作模式:主机厂直接采购供应商产品(拿来主义)、双方联合开发、成立合资公司[6] - 目前行业最常见的是联合开发模式,主机厂负责产品定义与测试,供应商负责软件算法与量产上车[6] - 成立合资公司的模式在行业中并不常见[7] 成立合资公司的动机与优势 - 传播价值:合资公司由主机厂主导,对外可宣传为自研,有利于增强品牌调性[7] - 实现全程可控:主机厂参与其中,可深入了解技术细节,避免因完全外包而导致心里没底[8] - 解决产品资产归属问题:合资公司开发的产品本质上属于合资公司,而占主导地位的主机厂拥有更多主动权[12] 智驾产品的采购与授权模式 - 一次性买断模式:主机厂支付固定费用,产品开发后归属主机厂,供应商不得提供给其他车企,此模式在行业早期较普遍,现已很少见[9][10] - License授权模式:供应商开发产品,供多家合作伙伴使用,按上车量收取单车授权费,产品归属供应商,此为行业主流模式[9][11] - 授权模式成为主流的原因在于,开发独用系统效率低、成本高、数据量少、迭代慢,不适合快速变化的市场[11] 主机厂自研能力的局限性 - 即便获得产品归属权,许多主机厂也不具备驾驭核心技术资产的能力,例如难以实现跨芯片平台的软件迁移[13] - 以地平线为例,其智驾产品是针对自身芯片的定制版,主机厂若想切换芯片平台,将面临编译器、算子库、加速器差异带来的巨大迁移难度[13] - 除了蔚来、小鹏、理想、极氪等少数新势力,没有一家主机厂成功量产一款像样的自研城区NOA方案,甚至完全自研高速NOA方案也极少量产上车[18] 合资模式意味着深度绑定与长期合作 - 成立合资公司意味着主机厂与供应商的深度绑定,双方需投入更多资源,需要足够大的上车量来摊薄研发成本[14] - 深度绑定使主机厂成为供应商的基石客户,合资公司的产品会向主机厂旗下更多车型和品牌倾斜[14] - 大众与地平线的合作是范例,从基础辅助驾驶功能合作开始,逐步拓展至L2++、座舱领域,最新战略是联合开发定制化芯片专供大众车型[14] - 这种深度合作模式对供应商是绝对利好[14] 行业内的其他合资案例 - 千里科技与吉利集团成立千里智驾,直接服务于整个吉利集团[15] - 华为与长安、赛力斯共同成立引望公司,其绑定逻辑与北汽-地平线模式相同,只是华为绑定的主机厂较多[16] - 更早之前,Momenta与比亚迪也成立了合资公司,属于行业早期的探索[17] 对行业未来趋势的预判 - 在主机厂自研智驾迟迟不见成效的背景下,与供应商成立合资公司可能成为实现“自研”的新合作路径[18] - 合资公司模式对主机厂而言,是一个既能保持体面(宣称自研)、又能弥补自身能力有限的“有里有面”的决定[19] - 可以预判,蔚来、小鹏、理想等新势力自研智驾最终能跑出来的可能性也不大,因为规模是硬性门槛,缺乏规模则无法摊薄成本,也没有足够数据迭代模型,其成长曲线无法与吃“百家饭”的供应商相提并论[20] - 未来,主机厂与智驾公司成立合资公司可能会越来越普遍,甚至不排除有新势力宣布放弃自研,完全采用供应商方案[21]
L4数据闭环 | 模型 × 数据:面向物理 AI 时代的数据基础设施
自动驾驶之心· 2026-01-19 17:04
文章核心观点 - 在通往通用物理智能(如自动驾驶)的道路上,模型算法是天花板,而数据基础设施是地板,真正的壁垒在于两者能否实现“双轮驱动” [1] - 模型算法本身正在变成“快消品”,但如何从物理世界挖掘数据、定义好坏、构建逼真虚拟考场的基础设施,一旦建成将成为真正的护城河 [5] - 对于物理AI(如机器人、自动驾驶)而言,越是走向端到端和世界模型,以大规模实车数据闭环为核心的“重”基础设施就越有价值 [27][33] 行业风向与共识转变 - 自动驾驶和AI圈子的关注点已从比拼单个模型的智力上限(如模型架构、SOTA论文),转向争夺“数据基础设施”人才 [2][8] - 头部公司如Tesla、Wayve、DeepMind的技术重点已变为数据引擎、自动评测体系、生成式仿真和闭环能力 [3][8] - Tesla在FSD V12中强调从大规模车队中挖掘“特征片段”并构建自动评分系统,而非依赖人工规则 [3] - Wayve等激进端到端玩家将生成式世界模型(如GAIA-1/GAIA-2)作为产品路线图主干,认为AI需先学会生成逼真、可交互的世界才能真正学会驾驶 [3] - DeepMind的Genie项目逻辑类似,旨在从海量互联网视频中学习可交互虚拟环境,供智能体进行加速训练 [4] 物理AI的进化形态(类比科幻作品) - **第一阶段:完全虚拟(SAO Aincrad篇)** - 对应早期仿真与远程示教,所有交互发生在代码构建的虚拟空间,效率极低(1x实时),且无法模拟物理世界的混沌噪声 [9][10][16] - **第二阶段:增强现实(SAO Ordinal Scale篇)** - 对应当下的大规模实车数据闭环,在真实世界(如数千辆L4/L2+车辆)上叠加数据采集,核心优势是数据天然包含物理世界的真实分布,但核心痛点仍是数据积累速度受物理时间限制 [11][16] - **第三阶段:世界模型与时间加速(SAO Underworld篇)** - 对应物理AI的终极方向,即构建一个时间流速可加速(如现实1天等于虚拟几百年)的逼真世界模型,让AI在其中进行指数级快速试错与进化 [12][13][17] - **终局展望:脑机接口与人机融合(加速世界篇)** - 对应Neuralink等公司的愿景,通过高带宽脑机接口实现人类意图的零损耗采集,直接将人类价值观注入AI [14] 自动驾驶数据闭环体系的核心作用 - 当前建设的L4自动驾驶数据闭环,并非仅仅为了“修Bug”,而是将物理世界的混沌翻译成世界模型能理解的“教科书” [15] - 该体系为未来世界模型提供关键的“生成指令集”和自动化评判标准,其价值在于对物理世界的理解、问题定义和数据掌控力这些“慢变量” [21][32] 第一层:感知物理世界的“体温计”(指标体系) - 定义了如MPS(每愚蠢里程)和MPD(每危险里程)等客观物理指标,这些指标未来将成为世界模型的奖励函数,用以评判AI在虚拟世界中驾驶的舒适性与安全性 [18][19] - 这些物理世界的客观标准(如急刹代表体验差,画龙代表控制不稳,贴得太近代表危险)是永恒不变的 [24] 第二层:把“瞬间”变成“病历”(数据分级与CaseID) - 通过Microlog/Minilog/CaseID体系,从现实世界每秒产生的PB级噪声数据中,提取高价值信息,将零散数据事件(如一次急刹)转化为结构化的“临床病例”,供世界模型学习 [20][25] 第三层:把车队变成“题库”(标签与FastDM) - 通过秒级标签为每一帧数据打上数百个维度的标签(如雨天、夜晚、路口、有行人),再配合FastDM(极速挖数引擎),可以上帝视角快速检索特定场景组合 [21] - 这相当于为训练世界模型构建了一个“题库”和“生成指令集”,可以针对现实中最易出事的场景分布,指令世界模型生成大量变种环境进行针对性训练 [21] 第四层:把专家经验变成“自动判卷人”(Trigger框架) - 将资深算法工程师的Debug经验编写成Python Trigger,这些Trigger未来可在世界模型中运行,作为24小时监控虚拟车辆行为的“自动化判卷老师”,对违规行为即时给出负反馈 [22] 第五层:从Bug到课程(问题聚类) - 将零散的Bug聚类成“典型问题场景”,这对应于AI训练中的课程学习,可以分阶段、有重点地训练模型,例如先集中训练“无保护左转”,再高强度训练“鬼探头”场景 [23][26] 物理AI时代的基础设施价值 - **与LLM的差异**:ChatGPT等纯文本模型犯错代价低,而物理AI(如自动驾驶)存在“幻觉致命”风险(如生成违反物理规律的环境),且高质量负样本(如车祸数据)极其稀缺 [27][29] - **核心作用**:实车数据闭环用于校准世界模型的物理参数,并通过Trigger和挖数引擎淘金式挖掘高价值负样本 [28][29] - **未来开发模式**:世界模型作为“生成器”负责发散,生成海量可能路况;数据基础设施作为“判别器”负责收敛,用积累的典型问题库、MPD/MPS指标和实车数据去指引生成方向、评分并进行真实性校验 [29][36] - **长期主义投资**:真正的壁垒在于投资那些“不会变”的事物,如物理世界的客观指标、对优质数据(Corner Case)的筛选逻辑、以及自动化闭环的流程 [33][37] 实践成果与商业验证 - 阿里巴巴达摩院/菜鸟自动驾驶团队在2018至2025年间,实现了从封闭园区运营到公开道路常态化运营的跨越 [35] - 具体成就包括:双十一期间近千台“小蛮驴”在封闭园区并发运营的历史峰值;高速公路L4重卡达成500 MPI的目标;以及约500台公开道路无人车的常态化运营 [35][46] - 该系统创造了千万公里无重大事故的安全记录,并实现了降本增效的商业价值,证明了自动驾驶技术的生产力属性 [38]
李飞飞的World Labs联手光轮智能,具身智能进入评测驱动时代!
量子位· 2026-01-19 11:48
文章核心观点 - 具身智能行业正面临模型进步速度远超评测能力的瓶颈,规模化评测成为关键制约因素[18][20][22][23] - 为解决此问题,行业两大关键基础设施公司——李飞飞旗下的世界模型公司World Labs与仿真合成数据公司光轮智能宣布合作,标志着具身智能正式迈入“评测驱动时代”[1][2][76] - 双方合作基于“数字表亲”理念,分工明确:World Labs的Marble产品解决高保真3D环境生成的规模问题,光轮智能则提供与真实物理对齐的资产及评测闭环,共同构建可规模化运行的仿真评测系统[3][45][49][51] World Labs(世界模型公司)分析 - 公司由AI领域权威人物李飞飞创立,成立仅两年已融资数亿美元,股东包括Andreessen Horowitz、英伟达、Databricks、Adobe等顶级风投与AI生态公司[4][5][17] - 公司选择“空间智能”作为AGI发展路线,旨在构建能感知、生成、推理并与环境互动的世界模型,以突破大语言模型的智能天花板[6][7] - 核心产品Marble是一款可视化世界模型,仅需一句话、一张图片或一段视频等轻量输入,即可生成高保真、持久、可下载的3D环境,支持导出多种格式,并内置AI世界编辑器Chisel[8][9][11][12][14] - Marble主要服务于视觉特效、游戏开发等领域,实现了“一句提示→生成3D世界→一键导出至Unity”的生产力链路,但其生成的世界缺乏物理参数,需与物理引擎结合才能用于机器人训练与评测[15][16][36] 光轮智能(仿真合成数据公司)分析 - 公司是当前最炙手可热的具身智能基建公司,与英伟达关系紧密,深度参与其仿真系统底层共建,是Newton物理引擎的早期验证者和开发合作者[54][55] - 公司在仿真合成数据市场占有率极高,服务了全球前三的世界模型公司,国际主要具身团队的仿真资产和合成数据80%以上来自光轮智能[58][59] - 公司构建了三位一体的自研仿真技术体系:1)自研GPU物理求解器,支持百万级自由度并行计算;2)全自动虚实对标物理测量工厂;3)将真实物理特性规模化映射为SimReady资产与场景[52] - 基于其基础设施地位,公司推出了工业级仿真评测平台RoboFinals,并与英伟达联合打造了开源仿真评测框架Isaac Lab Arena,致力于成为行业评测标准[63][64] 行业瓶颈与解决方案 - 具身智能模型迭代速度极快(几乎每隔一两周),现有学术基准已无法准确评估其能力,行业缺乏有效的规模化评测手段[20][22][23] - 在真实物理环境中测试机器人成本高昂、难以规模化,且存在安全风险,仿真被视作规模化评测具身智能的唯一可行路径[24][27][28][29] - 李飞飞提出的数据金字塔框架中,仿真合成数据被视为最具可扩展性的主干数据形态,是解决数据与评测这一根本约束的关键[31][32][35] - 传统追求“数字孪生”(一比一复刻真实世界)的仿真方式成本极高、无法规模化,行业转向“数字表亲”理念,即追求物理与空间结构可信,细节允许近似[42][43][44][45][46] World Labs与光轮智能的合作细节 - 合作本质是“世界模型×仿真基础设施”的历史性交汇:World Labs解决“世界从哪来”,光轮智能解决“进步怎么被衡量”[3] - 分工明确:Marble负责将环境创建时间从数周压缩到数分钟,解决环境生成的规模问题;光轮智能则承担仿真中最难的部分——提供与真实物理对齐的资产及构建评测闭环[47][49] - 合作旨在构建一个世界、行为、评测高度耦合的闭环系统,使仿真成为一个可重复运行、可持续扩展的数据生产系统,让规模化评测第一次真正成为可能[50][51] - 此次合作有深厚的学术渊源,李飞飞在斯坦福时期推动的BEHAVIOR系列研究及其2025年的BEHAVIOR Challenge,早已为具身智能建立长期、可扩展的评测工程奠定基础[38][40][41] 评测驱动时代的行业意义 - 随着众多大模型公司、机器人本体公司及行业巨头涌入,具身智能路线高度分叉,行业亟需能指引方向的“路标”或“北极星”[65][67][68][69][70] - 好的评测不仅能评估模型能力,更能提前发现技术瓶颈、反向塑造研究方向,是具身智能发展中必须与模型同步扩展的系统级能力[71][72] - 作为仿真与评测基础设施提供商,光轮智能处在所有技术路线之上而非其中,这使其最适合承担客观的行业评测角色[73][74] - World Labs与光轮智能两大关键基建的联手,串联起从环境生成到物理仿真再到规模化评测的全链条,有望推动具身智能行业进入以评测为驱动的新发展阶段[75][76]
华为靳玉志:ADS 4比旧版本安全多了,说“我们智驾靠堆代码”是胡扯
经济观察网· 2026-01-18 23:28
公司业务表现与市场数据 - 华为乾崑智驾系统(乾崑ADS)于2024年4月推出,并于2025年4月发布ADS 4版本 [2] - 2025年10月至12月,搭载华为乾崑智驾的车型连续3个月销量超过10万辆 [2] - 2025年全年,华为乾崑用户辅助驾驶里程达54.2亿公里,累计避免可能的碰撞212万次,辅助泊车3.3亿次 [2] - 截至新闻发布时,华为乾崑智驾累计辅助驾驶里程已超过72亿公里 [3] - 辅助驾驶活跃用户占比达到98%,智慧助手唤醒26亿次,无缝流转1.32亿次,照明光毯开启2434万次,晕车舒缓开启343万次 [2] - 公司预计到2026年底,搭载乾崑智驾的车辆将达到300万辆 [3] 技术路线与产品发展 - 乾崑智驾ADS 4采用了世界引擎与行为模型结合的架构,代表“世界模型”技术路线,该路线认为语言模态并非构建驾驶能力的必需 [3] - 行业技术路线逐渐分化为VLA大模型和“世界模型”两种,VLA路线强调语言模态的必要性 [3] - 在硬件方案上,公司支持“多模态融合”,认为激光雷达在极限场景(如眩光、无光线)下对提升安全性是必要的 [3] - 公司计划在2026年对乾崑五大解决方案进行全面升级,其中乾崑智驾将发布ADS 5版本 [3] - 下一代安全产品计划首搭于尊界S800与问界M9旗舰车型 [3] 产品性能与用户反馈 - 针对外界关于ADS 4变得更保守的质疑,公司回应称在城区场景下,ADS 4的用户使用比例相较ADS 3.3实际增加了个百分点 [2] - 公司统计数据显示,ADS 4的安全性比ADS 3.3提升了50% [2] - 在每发生一次严重碰撞事故前,乾崑ADS平均已安全行驶的公里数是人类司机的3.58倍 [3] - 公司于2025年广州车展发布华为乾崑App,在一两个月时间内下载量超过100万,用户量达到66万 [4] - 通过该App,公司已收到用户关于功能优化的1.5万条心愿单 [4] 公司对外界质疑的回应 - 公司高管驳斥了关于乾崑智驾系统是靠堆规则、堆代码写出来的不实说法 [2] - 公司表示不认可外界某些不客观的质疑,但始终欢迎用户提出宝贵意见 [4] 未来规划与市场展望 - 公司预计2026年搭载乾崑智驾的车辆将超过80款 [3]
智源发布 2026 十大 AI 技术趋势:世界模型成 AGI 共识方向
AI前线· 2026-01-18 13:32
文章核心观点 - 人工智能发展的核心正发生关键转移,从追求参数规模的语言学习,迈向对物理世界底层秩序的深刻理解与建模,行业技术范式迎来重塑 [2] - 2026年将是AI从数字世界迈入物理世界、从技术演示走向规模价值的关键分水岭 [8] - 这一转变由三条主线驱动:认知范式的“升维”、智能形态的“实体化”与“社会化”、价值兑现的“双轨应用” [8] 2026年十大AI技术趋势总结 趋势1:世界模型成为AGI共识方向,Next-State Prediction或成新范式 - 行业共识正从语言模型转向能理解物理规律的多模态世界模型 [9] - 从“预测下一个词”到“预测世界下一状态”,NSP范式标志着AI开始掌握时空连续性与因果关系 [9] - 以智源悟界多模态世界模型为代表验证了这一路径,推动AI从感知走向真正的认知与规划 [9] 趋势2:具身智能迎来行业“出清”,产业应用迈入广泛工业场景 - 具身智能正脱离实验室演示,进入产业筛选与落地阶段 [10] - 随着大模型与运动控制、合成数据结合,人形机器人将于2026年突破Demo,转向真实的工业与服务场景 [10] - 具备闭环进化能力的企业将在这一轮商业化竞争中胜出 [10] 趋势3:多智能体系统决定应用上限,Agent时代的“TCP/IP”初具雏形 - 复杂问题的解决依赖多智能体协同 [11] - 随着MCP、A2A等通信协议趋于标准化,智能体间拥有了通用“语言” [11] - 多智能体系统将突破单体智能天花板,在科研、工业等复杂工作流中成为关键基础设施 [11] 趋势4:AI Scientist成为AI4S北极星,国产科学基础模型悄然孕育 - AI在科研中的角色正从辅助工具升级为自主研究的“AI科学家” [12] - 科学基础模型与自动化实验室的结合,将极大加速新材料与药物研发 [12] - 报告强调,我国需整合力量,加快构建自主的科学基础模型体系 [12] 趋势5:AI时代的新“BAT”趋于明确,垂直赛道仍有高盈利玩法 - C端AI超级应用的“All in One”入口成为巨头角逐焦点 [13] - 海外以OpenAI的ChatGPT与Google Gemini为引领,通过深度集成各类服务,塑造了一体化智能助手的新范式 [13] - 国内字节、阿里、蚂蚁等依托生态积极布局,其中蚂蚁推出的全模态AI助手“灵光”与AI健康应用“蚂蚁阿福”分别在超级应用与健康垂直领域进行探索 [13] 趋势6:企业级AI应用从“幻灭低谷”走向价值兑现 - 企业级AI应用在经历概念验证热潮后,因数据、成本等问题正步入“幻灭低谷期” [15] - 但随着数据治理与工具链成熟,预计2026年下半年将迎来转折 [15] - 一批真正可衡量价值的MVP产品将在垂直行业规模落地 [15] 趋势7:合成数据占比攀升,有望破除“2026年枯竭魔咒” - 高质量真实数据面临枯竭,合成数据正成为模型训练的核心燃料 [16] - “修正扩展定律”为其提供了理论支撑 [16] - 尤其在自动驾驶和机器人领域,由世界模型生成的合成数据,将成为降低训练成本、提升性能的关键资产 [16] 趋势8:推理优化远未触顶,“技术泡沫”是假命题 - 推理效率仍是AI大规模应用的核心瓶颈与竞争焦点 [17] - 通过算法创新与硬件变革,推理成本持续下降,能效比不断提升 [17] - 这使得在资源受限的边缘端部署高性能模型成为可能,是AI普惠的关键前提 [17] 趋势9:开源编译器生态汇聚众智,异构全栈底座引领算力普惠 - 为打破算力垄断与供应风险,构建兼容异构芯片的软件栈至关重要 [18] - 繁荣的算子语言与趋于收敛的编译器技术正在降低开发门槛 [18] - 以智源FlagOS为代表的平台,致力于构建软硬解耦、开放普惠的AI算力底座 [18] 趋势10:从幻觉到欺骗,AI安全迈向机制可解释与自演化攻防 - AI安全风险已从“幻觉”演变为更隐蔽的“系统性欺骗” [19] - 技术上,Anthropic的回路追踪研究致力于从内部理解模型机理;OpenAI推出自动化安全研究员 [19] - 产业上,安全水位成为落地生死线,蚂蚁集团构建“对齐 - 扫描 - 防御”全流程体系,推出智能体可信互连技术(ASL)及终端安全框架gPass;智源研究院联合全球学者发布AI欺骗系统性国际报告,警示前沿风险 [19]
DeepMind CEO算了4笔账:这轮AI竞赛,钱到底花在哪?
36氪· 2026-01-18 10:21
文章核心观点 - 当前AI行业竞争焦点已从追求模型性能转向实现商业化落地与成本效益,投资应聚焦于构建能理解世界、自主思考的AGI能力,提升模型部署效率,解决能源瓶颈,以及强化内部整合与产品闭环 [1][10][20][29] AGI技术发展路径与能力短板 - 当前大模型存在“参差不齐的智能”短板,表现不稳定且无法举一反三,缺乏持续学习和自主提出新想法的能力 [2] - 通用智能需具备自主提出问题、进行假设并验证的能力,而非仅被动回答问题 [3] - DeepMind研发重点正从大语言模型转向构建“世界模型”,旨在让AI理解世界运转规律并进行预测和模拟,相关项目包括Genie、AlphaFold和Veo [4][5][6] - 实现AGI不能仅靠扩大模型规模,而需通过组合语言模型、视频模型和世界模型等各司其职的模块来构建可靠智能 [7][8][9] 模型商业化与产品策略 - AI商业化成功关键在于模型需“用得起”,策略核心是平衡性能与成本,而非一味追求更强 [10][11] - DeepMind采用“蒸馏”技术,用最强模型训练出更轻、更快、更省资源的“Flash”版本,以实现大规模部署,例如Gemini产品线中的Pro版与Flash版 [11][12][13][14] - 未来重要方向是将AI深度集成至手机、眼镜等终端设备,实现无处不在的智能,DeepMind已与三星、Warby Parker等品牌展开设备端AI合作 [15][16][17] - 商业化设计最高优先级是效率,追求推理更快、能力更平衡、能耗更低,核心是算总成本以实现成本可控和稳定落地 [18][19] 能源瓶颈与AI的解决方案 - 能源是制约AGI发展的核心瓶颈,智能越强耗电越大,能源供应决定了AGI能否从实验室走向现实 [20][21][22][23] - DeepMind采取双轨策略利用AI解决能源问题:开源(生产新能源)与节流(提高能效) [24][25][26][27] - 具体项目包括:用AI控制核聚变反应堆、寻找室温超导材料、重新设计太阳能材料以提高转化率,以及优化电网和数据中心运行效率 [35] - 行业竞争关键将转向能源效率,谁能更省电、把每度电用得更值,谁就能部署更大规模并存活更久 [28][36] 行业竞争格局与公司战略 - Google通过内部整合形成竞争优势,过去两三年将Google Research、Google Brain和DeepMind整合为统一的Google DeepMind,并重建了AI基础设施 [32][33][34] - 整合后所有AI技术由DeepMind统一开发,并可直接、快速扩散至谷歌全线产品,实现了研发与部署的高效协同 [35][37][38] - DeepMind建立了“骨干网”以实现快速部署,例如Gemini 3模型训练完成后次日即上线搜索、Gmail等产品,这得益于其从芯片到模型的完整技术栈和谷歌庞大的现有产品平台 [39][40] - 相较于OpenAI需逐个谈合作,谷歌凭借其产品矩阵能一步到位完成大规模部署,未来12个月AI能力将扩散至更多谷歌产品中 [41][42] - 中国AI实验室在训练效率、模型能力和部署速度上追赶迅速,可能仅落后几个月,但下一阶段关键是从技术复现转向原创突破 [43][44][45][46] - 行业长跑中,生存比速度更重要,胜出关键不在于发布数量或融资额,而在于能否让产品真正运行起来并构建整合优势与产品闭环 [47][48]
谁能代表中国智驾?《中国智能驾驶行业趋势白皮书(2025)》点名华为、元戎、Momenta
经济观察网· 2026-01-16 14:53
行业阶段与核心驱动力 - 2025年中国智能驾驶行业已进入以AI大模型为核心驱动力的全新阶段 [2] - 行业正经历技术路线分化和城区NOA场景竞争加剧的过程 [2] - 行业技术演进路径及VLA大模型与世界模型等核心路线的前瞻性预测是白皮书重点 [2] 市场竞争格局与主导力量 - 以“华元魔”(华为、元戎启行、Momenta)为代表的头部供应商成为行业竞争主导力量 [2] - 城区NOA场景的技术与市场竞争揭示了技术创新、商业化进程与市场需求的紧密关系 [2] - 市场竞争格局在技术路线分化和场景竞争加剧的背景下不断变化 [2] 头部供应商市场表现 - 2025年1至10月,元戎启行表现出强劲增长势头,尤其在主流价位车型的快速渗透上展现巨大潜力 [2] - 2025年10月,元戎启行市场份额达到38%,位居市场第一 [4] - 元戎启行增长倍数高达2.7倍,远超其他竞争者 [4] - Momenta和华为市场表现稳定,市场份额分别为38%和24% [7] - 元戎启行的快速增长和市场渗透速度令人瞩目,其领导地位逐渐明确 [7] 成功关键因素与行业趋势 - 供应商在城区NOA核心场景的竞争表现,不仅依赖技术领先,还与市场实际应用和规模化交付能力密切相关 [7] - 元戎启行的成功是其市场应用和规模化交付能力的集中体现,为行业带来新的竞争标准 [7] - 智能驾驶技术正从技术验证进入规模化交付阶段,市场竞争格局将愈加复杂 [8] - 头部供应商通过优化技术和扩大市场渗透,正推动行业向更成熟的商业化阶段迈进 [8] - 随着技术成熟和市场需求爆发,智能驾驶行业有望迎来更广阔的发展前景 [8]
产业级 Agent 如何破局?百度吴健民:通用模型难“通吃”,垂直场景才是出路
AI前线· 2026-01-16 14:28
Agentic模型的发展现状与挑战 - 通用全能的Agentic模型现阶段不可能实现,业务场景、工具、环境差异过大,通用模型泛化性有限 [2] - 当前研发核心是让模型在各类垂直Agent场景中更好发挥作用,发展最快的场景是Coding Agent,包括通用编程及网页开发等特定领域 [4] - 具备在各类垂直Agent场景下达到工业级效果的通用模型尚未出现,原因在于场景设定、工具集合及运行环境差异极大 [5] - 针对具体应用场景定制模型更容易形成优势,特别是当场景能清晰定义Reward且评估能高效自动完成时,通过强化学习定制的Agentic模型可显著超过现有通用模型 [5] - Agentic模型训练的最大卡点不是模型,而是真实环境复刻,外部接口、数据库、登录依赖等真实链路的稳定访问技术门槛极高 [2] - 实现模型在特定场景持续迭代,必须依赖一套在该场景下运行顺畅、具备高效率和高吞吐能力的强化学习系统 [6] 强化学习的技术瓶颈与工业应用 - 开源强化学习框架如OpenRLHF、TRL、VeRL等覆盖了主要环节,但在工业级应用中仍不够成熟,涉及多轮工具调用的Agentic场景需深度定制 [7] - 工业级打磨方向主要在模型规模支持与Agent训练能力两方面,需能高效支撑参数量较大的SOTA模型,并处理多轮工具调用的复杂交互 [7] - 工业级Agentic模型研发对整体技术栈要求极高,包括沙盒环境、高性能高并发调度运行能力及稳定的高并发搜索API支持 [7] - 强化训练的本质是激发和稳定模型在特定场景中的既有能力,首要前提是基座模型本身在目标场景上具备优势,通常源于预训练阶段的数据分布 [8] - 强化学习过程中,生成尝试路径(Rollout)通常占据80%—90%的时间成本,能否以高吞吐方式高效完成Rollout是成败关键 [9] - 强化训练的样本规模已可扩展到百万级,系统性地提升了模型推理和复杂问题解决能力 [10] - 大规模多场景强化训练的前提是结果评估能准确自动完成且最好有稠密的评估奖励反馈,这在代码或数学等评估相对确定的场景中相对容易实现 [11] 多模态模型的技术进展与局限 - 视觉生成主流模型框架从Diffusion Model发展到Flow Matching,效果、稳定性碾压前代方案 [3] - 视觉理解模型仍以ViT Encoder嫁接语言模型的主流方案为主,模型能力迭代主要聚焦在垂直方向的数据合成 [3] - 当前未真正实现多模态理解和生成的统一建模,分开独立优化效果依旧优于融合建模 [3] - 多模态模型核心是在语言模型基础上引入视觉能力,主流方案是在语言模型训练到一定阶段后,引入视觉编码器并用图文对齐数据联合训练 [17] - 视觉信号信息密度较低,仅依赖视觉输入进行大规模训练难以达到语言模型效果,现有方案高度依赖图文对齐数据 [17] - 行业可用的图文对齐数据规模大致在3–5T token,量级上存在明显差距,限制了多模态模型的进一步scale [18] - 生成与理解的统一建模是重要方向,但现阶段融合后的效果还不如单独优化 [21][23] 模型架构与能力扩展的关键方向 - 稀疏MoE架构被广泛应用,其核心是解决Scaling Law问题,在增大模型总参数的同时,让训练和推理实际使用的参数规模保持次线性增长 [15] - 稀疏MoE的稀疏比已做到5%甚至更低,成为推动模型规模继续扩展的现实可行方案 [16] - 长上下文能力与Agent能力直接相关,上下文长度决定了模型能记忆和理解的信息规模 [13] - 业界探索通过Agent脚手架本身“放大记忆”的方案,借助工具使用来弥补上下文长度的限制 [13] - 长上下文能力的关键是模型能否准确理解高效处理,依赖高效的注意力机制设计和实现,可采用稀疏化策略或分块筛选方案 [14] - “世界模型”存在多种理解,一种是通过建模理解物理世界的运行规律,另一种是强调代码能力和工具调用能力 [26] 未来趋势与演进路径 - 2025年明显方向是Agentic Model,即模型具备稳定、准确的工具调用能力,代码场景已率先验证,明年该能力很可能扩展到更多应用场景 [28] - 面对复杂环境,可行方案是让模型在特定场景的Agent脚手架中学会熟练使用该场景所涉及的相对有限的工具集合 [29] - 通用人工智能的实现路径存在分歧,一种是将多种能力融合到单一模型中,另一种是强调模型学会使用工具,当前没有看到哪条路一定能走通 [25] - 在特定专业场景中不断提升模型和Agent能力,使其在局部任务上超过人类水平,在相当长一段时间内仍将是主流方向 [12]