Workflow
世界模型
icon
搜索文档
群核科技通过港交所聆讯:2025年扭亏,或将成“杭州六小龙第一股”
新京报· 2026-03-30 18:28
公司IPO进程 - 群核科技已通过港交所上市聆讯,IPO进程进入最终冲刺阶段,联席保荐人为摩根大通和建银国际 [1] - 若成功挂牌,将成为首家完成IPO的“杭州六小龙”公司,并有望成为“全球空间智能第一股” [1] 公司定位与业务布局 - 公司聚焦空间智能赛道,卡位被视为AI下一发展方向的“世界模型”风口,拥有海量三维数据及底层空间能力 [2] - 旗下拥有全球最大的空间设计平台“酷家乐”、海外版“Coohom”、新一代空间智能解决方案“SpatialVerse”以及Aholo空间智能开放平台 [2] - 已形成“空间编辑工具-空间数据-空间大模型”的业务飞轮体系,从云原生空间设计软件提供商向空间智能服务提供商升级 [2] - 业务范围从辅助人类三维空间创作,拓展至助力智能体提升三维环境智能化水平 [2] - 已与智元机器人、银河通用、PICO、禾赛科技等行业龙头建立战略合作,支持空间智能在室内设计、电商、具身智能、影视、XR等领域的应用 [3] 财务与经营业绩 - 2025年公司实现营收8.2亿元,毛利率攀升至82.2% [4] - 2025年迎来业绩拐点,实现从亏损到盈利的跨越,全年经调整净利润达5710万元 [1][4] - 2023年至2025年,累计研发投入超10亿元,人工智能技术应用提升了开发效率及生产力 [4] 产品与业务发展 - AI相关垂直解决方案快速增长,例如2024年推出的3D AI设计工具“酷家乐电商棚拍”在2025年营收同比增长123% [4] - 持续迭代AI产品矩阵,推出“AI智能设计平台”,可在5分钟内完成一套全屋空间设计方案 [4] - 发布面向具身智能时代的云原生工业AI孪生平台SpatialTwin,支持实时模拟动态真实工业环境 [4] - 针对电商、影视等创意内容创作领域,推出了3D AI内容创作工具LuxReal [4] 募资用途 - IPO募集资金净额将主要用于实施国际扩张策略 [5] - 资金将用于增强现有产品功能并推出新产品及/或功能,以满足现实世界空间和虚拟环境的需求 [5] - 资金将用于国内销售及市场推广活动,并提升品牌知名度 [5] - 资金将用于投资核心技术和基础设施,以及用作营运资金及一般企业用途 [5]
杨立昆公开“手撕”Meta 内部环境:“LLM 吸光了房间里的空气”,物理世界才是 AGI 的终局
AI科技大本营· 2026-03-30 17:12
文章核心观点 - AI发展的主流路径(大语言模型LLM和生成式视频)存在根本性限制,无法通向真正的通用人工智能(AGI)[4][7] - 当前AI缺失的关键部分是能够理解、预测和规划现实世界的“世界模型”[7][9] - 联合嵌入预测架构(JEPA)是构建世界模型、克服生成式方法局限性的正确技术路径[7][12] - 生成式方法(如LLM的下一token预测)在处理连续、高维度的现实世界信号(如视频)时存在本质缺陷,而JEPA通过在学习到的抽象表示空间中进行预测,避开了这一缺陷[10][12][15] 对LLM及生成式路线的批判 - LLM基于“下一token预测”的自监督学习范式,在离散、有限词汇的文本领域有效,但无法直接应用于连续、细节不可预测的真实世界信号(如视频)[9][10] - 生成式方法要求模型重建输入信号的所有细节,这在现实世界中是根本不可行的,因为大部分细节本质上是不可预测的[10][12][15] - 试图让AI预测视频中所有像素的未来状态是徒劳的,例如无法预测房间内每个人的具体样貌或地毯的纹理[10] - 物理世界的模拟(如空气动力学)早已证明,有效的预测必须忽略微观细节(如单个分子运动),转而依赖高层抽象(如速度、密度)[11][12] JEPA(联合嵌入预测架构)的原理与优势 - JEPA的核心思想是放弃重建输入细节,转而学习一种能够支持预测的抽象表示,并在该表示空间中进行预测[7][12] - 该方法模仿了物理学和工程学中的分层建模思想:通过忽略下层细节,保留足够的高层结构来进行有效预测,例如从量子场到原子、分子、再到生物体的层层抽象[12] - JEPA的目标是学习“带动作条件的预测”模型,即给定当前世界状态和采取的行动,预测下一状态,这构成了可用于规划的世界模型[13] - 在计算机视觉领域,联合嵌入方法(不重建像素)长期在经验上优于各种重建式自监督学习方法(如VAE、遮罩自编码器),这被视为一个强烈的经验信号,表明重建对于自然信号是个“坏主意”[16][17] JEPA路线的技术成熟与突破 - 联合嵌入方法长期面临“塌缩”问题,即模型会忽略输入,输出平凡解[18] - 近年来,通过Barlow Twins、VICReg、基于蒸馏的方法(如DINO系列)等技术,已有效解决了塌缩问题,使得该路径在图像表示学习上变得非常有效和可行[19] - 这些防塌缩方法的成功,虽理论解释尚未完全清晰,但为JEPA路线的实践铺平了道路[19] 行业资源分配与公司战略转向 - 整个行业资源过度向LLM范式倾斜,LLM“吸走了房间里的所有空气”,导致更长期、更激进的非主流研究方向(如JEPA)难以获得足够支持[21] - Meta等大型科技公司的重心已转向短期目标,即追赶LLM产业浪潮,这使得其内部对偏离主流范式的长期研究项目的支持减弱[21] - JEPA技术的重要应用场景(如工业流程控制、机器人、现实世界系统)与Meta等以社交连接为核心业务的公司战略契合度较低,存在市场错位[21] - 外部融资条件成熟、JEPA技术成果开始显现,以及更广阔的应用空间,共同促使相关研究转向更专注的新实体(如AMI Labs)[22] 世界模型的应用前景与分层结构 - 世界模型(基于JEPA)是构建可靠智能体系统的关键,因为LLM本身无法预测自身行动的后果[13] - 最终可能需要“分层JEPA”结构,低层模型进行短时、细节的预测,高层模型进行长时间、大尺度的预测,这与物理学的重整化群理论思想相通[23] - 高层抽象模型具备跨领域迁移“直觉”的潜力,例如对流体动力学的高层理解可同时应用于发动机、机翼和帆船的设计[23] - 在经济学、金融等复杂系统建模中,JEPA式的数据驱动抽象方法可能有应用前景,但面临数据噪音大、信噪比低的挑战[26][27] - 该方法已在卫星模型训练等特定领域取得简单且效果良好的应用实例[23]
本土厂商加速布局世界模型,游戏行业优先受益
中邮证券· 2026-03-30 15:52
行业投资评级 - 行业投资评级为“强于大市”,且评级维持不变 [1] 核心观点 - 报告核心观点认为,本土厂商正加速布局世界模型赛道,将推动产业化进程提速,而游戏行业将优先受益于世界模型在前后端的应用,驱动产业向“长周期内容运营与持续生成能力驱动”演进 [4][5][6] 事件回顾 - 2026年3月23日,字节跳动Seed团队与北京交通大学研究团队联合提出视频世界模型VideoWorld 2,该模型在真实手工任务测试中,将长序列折纸任务成功率由0%提升至68.8% [4] 行业趋势与厂商布局 - 本土厂商加速入局世界模型赛道,产业化进程进一步提速 [5] - 蚂蚁旗下公司发布并开源通用世界模型LingBot-World,单次可生成接近10分钟的连贯视频 [5] - 腾讯先后发布混元世界模型1.5、混元世界模型、混元世界模型Voyager等多款产品 [5] - 华为参投具身智能与通用机器人企业极佳视界 [5] - 阿里巴巴联合其他资本投资3D大模型企业VAST [5] - 影溯、酷哇科技等初创企业也积极投身世界模型赛道 [5] 游戏产业应用与影响 - 后端开发:2025年AI技术在游戏研发环节的整体应用率已达86.36%,但核心游戏资产生成渗透率仅约36.8% [6] - 世界模型有望推动AI进一步切入复杂资产生成、场景构建等核心开发环节,由“单点提效工具”向“系统级生产力平台”跃迁 [6] - 前端玩法:AI已在人物交互等方向实现初步落地,例如腾讯在《和平精英》中推出具备语音识别能力的战术AI战犬“布鲁斯”,巨人网络在《超自然行动组》中推出“AI大模型挑战” [6] - 随着世界模型能力演进,游戏交互有望由“角色级智能”向“场景级生成+系统级交互”升级,驱动内容生产逻辑由“预制内容供给”向“实时生成供给”转型 [6] - 世界模型将打破现有“预设内容+线性推进”的范式约束,推动产业由“爆款驱动”向“长周期内容运营与持续生成能力驱动”演进 [6] 投资建议 - 建议关注具备世界模型开发+场景应用双重能力的公司:昆仑万维 [7] - 建议关注大型3D游戏制作公司:完美世界、巨人网络 [7]
国产世界模型登顶全球第一!断层领先谷歌英伟达,3D准确度逼近满分
量子位· 2026-03-30 11:39
公司技术成就与行业地位 - 极佳视界推出的具身世界模型GigaWorld-1在WorldArena评测中综合得分62.34%,排名全球第一,是唯一综合得分突破60分的模型[1][2] - 在WorldArena评测的多个核心维度上,GigaWorld-1相比竞争对手取得断层式领先,其中物理遵循相比第二名提升16%,3D准确度近乎满分,视觉质量遥遥领先[3][6] - WorldArena是由清华大学联合普林斯顿大学等8所顶尖高校及科研机构打造的权威评测体系,包含16项细分核心指标和3大真实应用任务,吸引了谷歌、英伟达等全球头部团队参与[8][9] - 公司是国内首家专攻世界模型的公司,定位为聚焦物理AI,致力于世界模型驱动的物理世界通用智能,技术护城河建立在“世界模型×具身大脑”的双轮驱动战略上[27] - 公司产品矩阵包括世界模型平台GigaWorld、具身基础模型GigaBrain、通用具身本体Maker等物理AI全栈软硬件产品[28] 核心技术优势与产品性能 - GigaWorld-1是一款专为具身场景打造的动作控制世界模型,深度继承了公司此前发布的EmbodieDreamer核心架构[11][12] - 该模型创新性地融合了显式的动作建模机制与可微分物理引擎,保证了视频生成的几何一致性,并实现了对复杂物理交互过程的真实模拟[14] - 模型使用了上万小时高质量真实机器人操作视频数据进行训练,增强了在开放场景下的泛化能力与高精度动作遵循表现[14] - GigaWorld世界模型平台能模拟物理世界运行规律,生成高保真合成数据,与传统仿真器相比,能使所训练的VLA模型在新纹理、新视角、新物体位置三大泛化维度上实现近300%的性能提升[29][30][31] - GigaWorld平台能带来10-100倍的效率提升,其GigaWorld-Policy产品实现了10倍推理速度与10倍训练效率的跨越式提升,同时任务成功率大幅上涨30%[32][35] - 公司开发的端到端视觉-语言-动作基础模型GigaBrain,在全球规模最大的真机评测比赛中超越Pi0.5等模型获得全球第一[37] - 基于世界模型的强化学习模型GigaBrain-0.5M*在高难度长时程任务中,面对折纸盒、咖啡制备等复杂场景,均实现接近100%的任务成功率[40] 公司融资与团队背景 - 公司在本月初宣布完成近10亿元Pre-B轮融资,由中芯聚源、上海半导体产投基金、临芯资本等顶尖芯片和汽车产业资本领投,中金资本、苏创投等国资平台和财务机构跟投[21][22] - 早在2025年11月,华为旗下的哈勃投资已联合华控基金,完成了对公司的亿元级A1轮战略投资[24] - 创始人兼CEO黄冠为清华大学自动化系创新领军工程博士,曾担任地平线机器人视觉感知技术负责人、鉴智机器人合伙人&算法副总裁,并拥有微软亚洲研究院等工作经历[41] - 联合创始人兼首席科学家朱政为智源青年学者,发表顶级论文70余篇,引用近2万次,连续4年入选全球前2%顶尖科学家榜单[43][44] - 联合创始人孙韶言曾担任阿里云总监,地平线数据闭环产品线总经理,主导了业内首个智能驾驶数据闭环系统的落地[44][45] - 合伙人兼工程副总裁毛继明拥有超过16年仿真/工程/数据/分布式架构经验,曾担任百度Apollo仿真和工程负责人[46] - 公司核心团队还包括博士期间超10篇顶会一作的世界模型顶尖科学家、超过10年物理AI全栈量产经验的产业专家、华为天才少年获得者等,是行业少有的全栈团队[46] 开源、社区影响与行业生态 - GigaWorld-1的核心代码与部分数据集已开源,在HuggingFace平台开源后半个月内下载量便突破16000次[15] - 公司此前开源的GigaWorld-0代码在GitHub上斩获1.5k+ Star[32] - GigaWorld-1将作为官方Baseline,支持即将于3个月后在美国举办的GigaBrain Challenge@CVPR 2026国际挑战赛[17] - 公司在GitHub上的组织拥有超过3.6k关注者,其开源项目如GigaBrain-0和GigaWorld-0分别获得2.4k和1.5k Star[48]
连续两篇 ICLR,南京大学林浩鑫将世界模型动力学推演推进到上千步
机器之心· 2026-03-29 15:17
世界模型研究核心观点 - 当前制约世界模型走向“内部模拟器”的关键瓶颈并非表征能力,而是动力学建模的稳定性[1][2] - 世界模型的核心价值在于能在模型内部进行稳定、长时域的滚动推演,以支持规划与决策,而不仅仅是压缩环境信息[4][9][11] - 南京大学LAMDA小组的两篇ICLR连续工作(ADM和ADM-v2)系统性地推进了动力学建模,使模型从短程预测迈向能支撑上千步完整时域推演的“内部模拟器”[3][38][41] 世界模型框架与挑战 - 完整世界模型包含两个核心部分:V模型(状态表征)负责将观测压缩为内部状态;M模型(动力学建模)负责预测状态在动作作用下的演化[4] - 过去几年研究进展多集中于状态表征(如更强的编码器、潜变量表示),而直接决定推演稳定性的动力学建模未得到同等力度的推进[1][8][9] - 传统动力学建模采用“单步自举式预测”,导致预测误差在长程滚动推演中会持续累积并放大,这是许多模型“短程有效、长程失稳”的根源[12][13][14][15] ADM(任意步动力学模型)的核心创新 - 提出“任意步直接预测”新范式:从某个历史状态出发,结合一段动作序列,直接预测若干步后的未来状态,而非依赖上一步预测结果层层递推[17][18][19] - 该方法通过“回溯”机制重写了未来推演的计算路径,显著缩短了误差传播链条,从而提升了长程滚动的稳定性[19][20][24] - 创新性地利用同一模型在不同回溯长度下的预测差异作为不确定性估计信号,提供了一种轻量且结构化的替代方案,无需依赖大规模模型集成[25][26][27] ADM的实验性能表现 - 基于ADM构建的ADMPO-ON(在线)和ADMPO-OFF(离线)方法在策略学习上均取得提升:在线设置样本效率更高;离线设置在D4RL和NeoRL基准上优于多种强基线[33] - 在NeoRL基准测试中,ADMPO-OFF在9个任务上的平均性能达到**64.0**,优于对比方法如BC (**45.4**)、CQL (**56.1**)、MOPO (**28.5**) 和 MOBILE (**60.7**)[35] - 实验证明ADM能有效控制长程滚动推演中的误差增长,其误差累积曲线显著优于传统的自举式预测和模型集成自举式预测方法[31][37] ADM-v2的进阶突破 - 核心突破在于首次在离线强化学习设定下,将完整时域滚动推演稳定地推进到**上千步**规模,标志着模型从“短程近似预测”走向“近整回合级别的连续推演”[3][38][41][42] - 进行了关键的结构重构:将起始状态编码为隐表示并作为循环单元初始状态,后续递推只输入动作序列,从而将“状态初始化”与“动作驱动演化”明确分离,提升了稳定性和灵活性[43][44][52] - 提出了“并行任意步滚动推演”(PARoll)机制,通过并行维护多个不同时间步幅的预测视角来高效执行长程推演并同步产生不确定性估计[47][48][53] ADM-v2在策略评估与学习中的应用 - 将动力学模型能力扩展至“离线策略评估”,在DOPE基准上,基于ADM-v2的完整时域滚动推演评估优于多种离线策略评估方法及其他动力学模型方案[56][58][59][62] - 在离线策略学习任务中,基于ADM-v2的ADM2PO-fh在D4RL和NeoRL上取得新的最好结果,平均性能较此前强基线分别提升超过**4.6%** 和 **12.8%**[64] - 与许多方法在推演长度增加时性能下降不同,ADM-v2能够持续从更长时域的推演中获益,证明其让长时域推演真正变得可用[64][65][66] 技术演进路线与行业意义 - 两篇工作构成连续技术主线:ADM证明了动力学建模可摆脱单步自举预测;ADM-v2则证明该路线能稳定支撑上千步完整时域推演[73][74][79] - 研究强调了在追求模型更大参数规模、更强表征能力的同时,必须把动力学建模做对,这是世界模型转化为真实系统能力、从短程预测工具迈向数据驱动模拟器的底层关键[72][75][76][77][78] - 这一进展对于离线强化学习、机器人学习、通用智能体及更大规模世界模型系统的未来发展具有重要意义,动力学建模将成为其向前演化的关键问题之一[10][79]
8.68万新车普及车位到车位,世界模型不吃高算力!零跑夯爆了
量子位· 2026-03-28 14:33
文章核心观点 - 零跑汽车通过自研世界模型技术,将原本用于四五十万豪华车的智能辅助驾驶方案下放至10万元以内的入门级车型,实现了科技“普及平权”,并可能彻底改变行业格局 [1][6] - 世界模型是一种具有AGI潜力的新AI范式,能实现AI与真实物理世界的链接与交互,零跑将其成功部署于车端,使智能驾驶从“能用”变为“好用” [3][4][5] - 零跑在智能化技术上采取多路线并行策略,并凭借对AI趋势的洞察和极致的技术优化(如知识蒸馏),在保持高性价比的同时,正尝试在智能化领域实现引领 [59][66][70] 世界模型的技术原理与优势 - **技术定义**:世界模型是多模态大模型,能通过视觉、触觉等多种感知理解世界,并建立对三维空间、物理规律及因果关系的认知,不同于仅模仿行为但不理解场景的端到端方案 [33][34][39] - **核心架构**:主要由三部分组成:视觉编码器(压缩观测数据)、序列预测器(在潜在空间模拟世界动态)、渲染器(将预测状态还原为图像) [35][36] - **车端应用**:零跑将世界模型用于车端实时环境认知与决策,强调“平行世界推演”能力,使系统决策更可控、更贴近人类司机,避免了传统规则代码系统或端到端“黑盒”的缺陷 [39][40][24] 零跑世界模型的实测表现 - **复杂场景博弈**:在杭州核心城区人车混行的极窄路段,系统敢于合理博弈,轨迹策略高效,能安全顺畅通过,展现了多数量产系统不具备的能力 [7][9][11] - **拟人化驾驶风格**:在匝道并入、与行人交互等场景中,系统能像成熟人类司机一样平滑规划、缓慢蠕行等待,整个过程无重刹、无顿挫,提供“预期感” [14][16][19] - **高阶场景理解**:系统能识别并理解路边的临停、违停指示牌,并聪明地选择绕行,避免了端到端方案可能将违停车误判为正常车流而尾随傻等的问题 [19][20] 零跑的技术实现与部署策略 - **后端数据驱动体系**:公司已建成数千卡算力基础设施,并跑通了数据闭环体系,能自动完成从发现问题、归类、训练仿真到验证解决方案的全过程,大幅提升研发效率与泛化能力 [42][44][45] - **车端极致部署**:通过知识蒸馏等技术,将云端超大参数世界模型优化后部署于车端芯片平台,目前测试平台为高通8797(单颗稠密算力320TOPS),并承诺未来所有搭载高通8650芯片(算力100TOPS)的车型都能上车世界模型 [48][49][51][52] - **降低门槛**:通过极致蒸馏,公司创纪录地将世界模型智能驾驶方案的门槛打到了10万元以下,其8.86万版型的A10车型(搭载激光雷达与高通8650芯片)即支持该方案 [1][51][52] 零跑在智能化领域的战略与进展 - **技术路线布局**:公司不站队技术流派之争,而是产品导向,采取多路线并行策略:用一段式端到端保障入门级产品的全场景体验;用VLA体系打造旗舰车型的舱驾一体体验;同时积极探索世界模型这一更底层的AI范式革新 [67][68] - **智能化普及记录**:公司持续将前沿技术普惠化,例如在2024年率先将激光雷达普及到10万级车型(B10),在2025年又将车位到车位体验普及到8万级车型(A10),均为行业唯一 [63][64] - **市场表现与目标**:公司2025年全年累计交付新车596,555辆,同比增长103%,成为中国造车新势力年度销量冠军,在销量问鼎后,正尝试在智能化领域实现引领 [69][70]
国产玩家亮剑世界模型!把全模态卷到顶后,天工AI不藏了
量子位· 2026-03-27 21:49
文章核心观点 - 行业正经历从大模型工具时代向AI平台经济时代的第二次跃迁 [3][4] - 天工AI的战略目标不是单纯打造更强的模型,而是构建一套完整的AI原生平台 [2][8] - 公司通过发布三大SOTA模型,正在拼凑一个“可理解、可生成、可交互”的世界模型雏形,并以此为基础搭建平台生态 [13][82][105] 天工AI的战略与平台愿景 - 公司提出“3+1”生态架构作为其2026年AGI战略升级,底层是四大SOTA模型(视频、音乐、游戏世界模型及Skywork 6.0),上层是三大AI原生平台经济体,并由Skywork Super Agents作为通用操作系统 [82][83][84][85][86] - 平台包含内外两层:内层是从技术到模型再到应用的完整闭环;外层是由开发者、创作者和合作伙伴加入后演化而成的生态 [9] - 公司的路径是先拿下“全模态”能力,再向平台延伸,与“先搭台、后唱戏”的传统路径相反 [119][123] 三大模型发布与技术进展 - **游戏世界模型Matrix-Game 3.0**:解决了长时序一致性与高分辨率实时生成两大难题,模型长期记忆能力达到分钟级,并在720P分辨率下,5B模型实现最高40FPS的实时生成 [19][20][27][29] - **视频大模型SkyReels V4**:在Artificial Analysis文转视频(含音频)全球榜登顶,解决了音画不同步、可控性差、缺叙事逻辑、商用落地难四大顽疾,通过自研对称双流MMDiT架构、全模态参考、强化学习与阶梯式课程学习提升能力,最终在保证1080P、32FPS、15秒成片质量的同时,将计算成本压至原来的三分之一 [42][43][44][53][58] - **音乐大模型Mureka V9**:其前代Mureka V8已登顶Artificial Analysis音乐模型榜,超越Suno V4.5、Udio v1.5 Allegro等国际主流模型,V9在段落内文本控制、生成效率、混音质量与整体听感上进行了全方位打磨 [68][66] 世界模型的构建路径 - 三大模型并非孤立推进,而是互相配合、彼此反哺:Matrix-Game系列构建可实时交互的世界框架,SkyReels系列承担对世界的理解与预测,Mureka系列补齐表达与情绪维度 [13][77] - 世界模型的核心在于学习状态转移参数,具备动态性、可交互性和物理一致性,从“视频生成器”转变为“可交互系统” [32][39] - 实现世界模型需要数据引擎、模型架构、推理部署三个层面的系统性升级 [33] 产业趋势与商业化落地 - AI正从“辅助工具”进入生产流程本身,开始“主导”部分生产环节,这要求能力从单点转向体系化 [92][100] - 公司模型已在具体平台落地:游戏世界模型驱动新一代AI开放世界模拟游戏平台“猫森学园”;视频模型驱动海外付费短剧平台DramaWave(“AI版Netflix”);音乐模型驱动AI音乐创作与分发平台Mureka(“AI版Spotify”) [97] - 产业一线人员(如游戏开发者、音乐人、导演)的实践表明,AI正在压缩传统高成本、耗时的创作环节,并降低创作门槛,但专业创作者面临的挑战是让AI理解专业语言 [93][94][95][96] 行业竞争格局与公司定位 - AI行业竞争分两条路径:一类在单一模态卷极致(如Midjourney、Sora);另一类尝试整合多模态能力构建统一系统或平台,后者更难且玩家寥寥 [109][110][112] - 天工AI作为后者,其转向平台标志着全球第一梯队迎来了一位“全能”国产玩家,竞争焦点可能从单点能力转向体系化能力 [107][108] - 母公司昆仑万维自2022年“All in AGI与AIGC”以来,已构建“模型+产品”完整矩阵,其海外服务覆盖全球100多个国家和地区,全球平均月活跃用户近4亿,海外收入占比达92% [114][117]
对话文远知行韩旭:智驾终局论是妄想,不存在必赢的技术路线
晚点LatePost· 2026-03-27 11:35
文章核心观点 - 文远知行CEO韩旭认为,自动驾驶行业远未到终局,技术仍在快速迭代,领先者提出的“终局论”或短期决胜论(如2026年)是“气喘吁吁”的表现,比赛不会因此结束 [3][31] - 公司通过自研的仿真数据平台WeRide GENESIS(世界模型)解决了高质量训练数据瓶颈,从而在2023年8月实现了“一段式端到端”自动驾驶方案的突破,并因此获得奇瑞、广汽的量产定点,被视为行业黑马 [4][5][7] - 文远知行坚持L4 Robotaxi与L2++ ADAS量产“两线作战”且均取得成功的战略,其核心竞争力在于内部培养机制、集体主义文化以及扎实的基础设施(如仿真平台)建设,而非依赖挖角“技术大牛” [21][22][27] - 公司强调安全是自动驾驶技术的本质和最终体现,认为在“大数定律”下,长期、大规模运营中安全事故率的高低才是公司真实实力的反映,并期待通过保险定价等市场机制来区分安全水平 [37][38] 行业竞争格局与终局讨论 - 行业存在“终局论”或短期决胜论,例如有观点认为智驾竞争将在2026年结束,国内仅剩三家胜出 [3] - 韩旭反对此类论断,认为自动驾驶技术还在快速迭代,头部公司资金充足,格局变化非常快,现在只是“开局的结束”,离终局很远 [3][30][31] - 新能源车的竞争持续多年仍未定局,类比可知自动驾驶的竞争持续时间可能比两三年更长 [31] - 对于“地大华魔”等一梯队供应商排名,韩旭认为定点情况是客观事实,但格局变化迅速 [30] 文远知行的技术突破:一段式端到端与WeRide GENESIS - 公司在2023年8月发布了一段式端到端方案,用一个模型直接将传感器数据输出为驾驶决策,获得奇瑞、广汽的量产定点 [4][6] - 该方案的突破关键在于解决了高质量数据,尤其是长尾数据的来源问题 [7] - 核心支撑是自研的仿真数据平台WeRide GENESIS,该平台被定义为“世界模型”,能按需生成各种复杂、真实的驾驶场景数据,如同“合成钻石的工具” [5][7][8] - WeRide GENESIS相比传统CG生成或特斯拉的3D Gaussian Splatting技术,具有更高真实感、物理一致性、厘米级精度,并能赋予场景中其他车辆类人的博弈行为(如加塞) [8][10][11] - 该平台还能用于算法诊断、自动提出改进建议 [11] - 公司驳斥了突破源于从特斯拉挖人的说法,强调是内部研发和培养的结果 [7] 从L4到L2++的量产拓展与业务模式 - 公司进入ADAS市场是长期规划,随着车规芯片算力提升(如Orin)和激光雷达成本下降(至几千元),判断L4与ADAS技术栈差距缩小,从而坚定进入 [15] - 与博世合作,以“老兵带新兵”模式,用18个月推出了首款高阶辅助驾驶量产产品(奇瑞星纪元ES) [15] - 在量产过程中,公司投入大量人力进行驻场服务(有时达百人规模),并学习了强烈的服务意识和严格的软件版本管控流程 [16][18][25] - 公司认为目前L2++体验距离L4“还差得很远”,但以L4的安全标准来提升ADAS系统,目标是实现避免事故的“尖峰时刻” [17] - 公司同时运营L4 Robotaxi和L2++ ADAS业务,并认为自己是全球范围内两线作战且都取得成功的唯一公司 [21] - Robotaxi业务在2023年推动公司收入增长90%,达到6.9亿元 [4] 公司的核心竞争力与文化 - 坚持内部培养机制,通过“英才计划”校招和导师制培养人才,反对“个人英雄主义”和依赖挖角“大牛” [7][22][23] - 强调集体主义精神和基础设施(infrastructure)建设,认为这是做出高质量一段式端到端的关键 [22][27] - 公司文化允许“抱怨归抱怨,决定了就要全力以赴” [22] - 对于ADAS量产和端到端技术的突破,公司内部给予了年度特等奖奖励 [24] - CEO韩旭不喜欢追逐行业“热词”或“大词”(如VLA、世界模型),认为做好产品要回到问题本质,扎实解决工程问题 [13][34][38] 对行业技术路线与安全标准的看法 - 认为技术具有不可预测性,当人们觉得“That's it”时,很可能会有新技术出现 [3][13] - 反对“一段式端到端上限高但下限低”的说法,认为“下限低”是模型幻觉问题,可通过WeRide GENESIS提供的大量干净数据来解决 [5][27] - 对于用规则为端到端系统做安全兜底存在不同行业看法,韩旭认为有些急刹行为本身就是端到端的决策,并非都是规则触发,人类对机器行为的解释可能存在错觉 [28] - 安全是技术本质的体现,在“大数定律”下,长期大规模运营中安全事故少的公司实力最强 [37] - 呼吁行业需要保证小概率安全事故被真实记录,并有公平的市场监督与政策规范,避免“劣币驱逐良币” [37][38] - 预测未来两三年内,保险公司可能通过保费高低来标识不同智驾系统的安全水平,成为重要指标 [38] 公司未来战略与行业定位 - 公司战略核心始终是自动驾驶技术,主要产品是Robotaxi,同时ADAS是非常重要的方向,两条路线最终会合二为一 [35] - 目标是成为全世界第一的自动驾驶公司,踏实地做好技术和人才培养 [35] - 在合作模式上,公司不与单一车企深度绑定,而是同时与多家车企、平台公司及商用车厂商合作 [29] - 对于软硬一体模式,认为如果芯片出货量达不到百万级一定会亏损,目前类似早期新能源车烧钱冲量讲资本故事;软件公司找到优秀硬件伙伴合作是市场博弈过程 [34] - 引用《孙子兵法》“兵无常势,水无常形”,认为没有必赢的战略或武器,一切取决于动态协作与应变 [34] - 对于其他公司从L2++做到L4的宣称,韩旭认为需要具体分析,并强调端到端模式要保证安全极其困难,需要扎实的基础和突破性努力 [35][36] - 定义真正的Robotaxi公司需使用自有技术,并实现至少100辆纯无人车队运行半年以上 [36]
高盛闭门会-机器人与自动驾驶-实体AI考察之旅的核心要点
高盛· 2026-03-26 21:20
报告行业投资评级 - 报告未明确给出统一的行业投资评级,但提供了对具体公司的看法:对三花智控维持中性评级,认为Jabil是优质标的 [13] 报告的核心观点 - 全球物理AI(机器人与自动驾驶)行业正处于关键扩张与商业化前夕,技术可行性已验证,核心挑战在于规模化速度与成本优化 [3][6] - 自动驾驶安全性已超越人类(Waymo比人类高80%-90%),但不同公司进展分化;人形机器人硬件迭代迅速,但软件“大脑”与核心硬件(如灵巧手、电池)仍是商业化瓶颈 [1][5][7] - 供应链呈现区域化分工,地缘政治与关键材料(如稀土)依赖构成潜在风险;市场规模巨大,预计将由多家供应商分享,竞争激烈 [8][11] 根据相关目录分别进行总结 自动驾驶进展与对比 - Waymo计划在2026年底前覆盖至少15座城市,其自动驾驶安全性比人类驾驶高出80%至90% [1][3][6] - 特斯拉Robotaxi扩张速度慢于预期,其奥斯汀车队事故率约为每5万英里一次,约为Waymo的两倍;其消费者版全自动驾驶(FSD)安全性比人类高出一个数量级,但存在导航失误等问题 [1][6] - 自动驾驶卡车领域,多家企业计划在2026或2027年扩大商业化运营 [3] 人形机器人技术进展与挑战 - 特斯拉Optimus计划于2026年开始内部工厂应用,并于2027年底前对外销售 [1][12] - 硬件方面进展显著:产品迭代速度快(有中国公司每6-8个月推出新一代),模块化程度提高为量产提供可能;但手部灵活性、寿命、热管理以及功率密度和电池续航仍是核心挑战 [1][7] - 软件“大脑”方面,行业正从双系统架构转向世界模型研究(如因果模型、AI提示视频生成等),通用智能的发展路径仍存在不确定性 [1][10] - 2025年全球人形机器人出货量约为1.5万至2万台,处于早期阶段 [1][11] 市场规模预测 - 预计到2030年,仅美国自动驾驶市场的总可寻址市场(TAM)将超过3000亿美元 [1][11] - 预计到2030年,美国卡车货运自动驾驶市场规模将达到180亿美元,而北美地区潜在市场规模达万亿美元 [11] - 对于人形机器人,基准预期下,到2035年市场规模将达到380亿美元;乐观情景下,潜在TAM可达2050亿美元 [1][11] 全球供应链格局与风险 - 供应链区域分工明确:美国主导前沿研究、AI模型与高精度传感器;欧洲、日、韩优势在机械工程;中国拥有完整供应链体系并积极布局产能 [1][8] - 供应链安全存在风险:地缘政治可能导致分化;稀土磁铁供应高度依赖中国(单台人形机器人需30-40个关节电机),行业正研发减稀土方案以应对 [8] 主要公司竞争力与投资标的 - **特斯拉**:在自动驾驶和机器人领域凭借成本结构和技术进步预计将表现较好,但非主导者;其Optimus机器人生产计划利用弗里蒙特工厂的Model S/X产线转型 [11][12] - **Waymo**:正在快速扩张,是自动驾驶领域的重要参与者 [11] - **中国供应链**:绿的谐波在中国人形机器人谐波减速器市场份额达70%;双环传动为关键零部件厂商;三花智控定位为面向美国企业的执行器组装商,但面临特斯拉自研与地缘风险 [2][13] - **美国标的Jabil**:其机器人相关业务(零售与仓库自动化)占营收高个位数比例,利润贡献更大,已为沃尔玛、亚马逊及特斯拉自动化链条提供支持,并宣布人形机器人合作,具备长期增长机会 [2][13][14]
打破具身世界模型可执行性鸿沟 !港中深-跨维智能团队提出EVA框架,用强化学习让视频世界模型真正“动”起来
机器之心· 2026-03-26 14:47
行业技术趋势 - 利用视频生成模型为机器人构建“世界模型”是具身智能领域的热门技术路线,其采用“先预测、后执行”的解耦式规划范式,因兼具可解释性与开放场景泛化潜力而受到广泛关注[2] - 当前技术路线的关键瓶颈在于存在“可执行性鸿沟”,即生成的视频未必对应真实可执行的动作序列[3] - 行业正意识到,真正服务于机器人的世界模型不能只停留在二维视觉预测,而应进一步融入对世界物理的建模[3] 核心技术突破 (EVA框架) - 香港中文大学(深圳)与跨维智能的研究团队提出了名为Executable Video Alignment (EVA)的强化学习后训练框架,以解决可执行性鸿沟问题[3] - EVA框架的核心思想是将逆动力学模型(IDM)转化为奖励模型,通过强化学习直接优化视频生成过程,使生成结果不仅视觉真实,而且动作可行[3][11] - 该框架在奖励设计中显式引入了机器人执行层面的约束,如动作速度变化、加速度平滑性及高阶jerk正则项,并对异常动作进行惩罚,从而将视频生成分布拉回到机器人可行运动流形之上[12] 实验性能表现 - 在视觉规划质量评估中,经过强化学习对齐的EVA模型在“运动学合理性”指标上相比未对齐的基线模型大幅提升了20.9%[15] - 在RoboTwin 2.0基准的21个双臂任务仿真实验中,EVA(with RL)将平均任务成功率提升至52.6%,优于未对齐版本及其他基线方法[16][18] - 在真实机器人部署测试中,对于已见过的任务,EVA(with RL)的平均成功率达到64.0%[19] - 在5个全新的分布外任务上,EVA(with RL)将平均成功率提升至60.0%,显示出更强的新任务适应和跨场景泛化能力[19] 潜在应用与拓展方向 - EVA框架展现出面向具身智能的数据合成与增强潜力,可通过零样本方案自动生成具备合理物理约束的动态视频轨迹,为构建全合成具身数据流水线提供可能[23] - 该技术方向有助于缓解高质量机器人数据稀缺的问题,未来或可在不依赖人工遥操作的前提下,持续合成更丰富、更可信的具身数据[23][24] - EVA目前主要聚焦于运动学层面的对齐,其未来拓展可进一步引入更丰富的动力学约束,如接触力、摩擦、扭矩等真实物理因素[27] - 更“好用”的世界模型需要进一步走向对三维空间结构、真实物理规律和连续交互过程的统一理解,这与跨维智能围绕GS-World和EmbodiChain推进的研究主线一脉相承[27] 对行业发展的意义 - EVA工作促使行业重新思考视频世界模型的评价标准,对于机器人而言,关键不在于生成画面是否清晰连贯,而在于其对应的动作能否被可靠执行[21][26] - 该技术推动世界模型从“看起来合理”迈向“真正能够执行”,补上了视觉合理性与动作可执行性之间的关键缺口[26] - 这项进展标志着世界模型在迈向具身智能落地过程中迈出了关键一步,机器人需要的是能在真实三维物理世界中“做得出来”的世界模型[28][29]