世界模型
搜索文档
对话郎咸朋:VLA 技术论战、团队换血与不被看好时的自我证明
理想TOP2· 2025-11-05 18:29
以下文章来源于晚点Auto ,作者晚点团队 晚点Auto . 从制造到创造,从不可能到可能。《晚点LatePost》旗下汽车品牌。 本文经授权转自《晚点AUTO》 作者:赵宇 编辑:龚方毅 黄俊杰 42 岁之前,郎咸朋从不抽烟,但在去年夏天理想研发 "端到端" 智驾方案期间,他每个工作日都得 来上两根。 技术的演进常伴随争议,而最终消解争议的仍是产品本身。郎咸朋认为,相比有监督训练的 "端到 端",无监督训练的 VLA 迭代效率更高,最晚到明年初,外界就能看到明显提升。 相比我们此前两次交流(一年前推出 "端到端" 方案,以及两个月前 VLA 临近落地),郎咸朋这次更松 弛一些,近三个小时的谈话中,他语速平稳、声音轻快。谈及理想智驾的进展和技术选择,他的用词也 更笃定。 见面前不久,理想智驾团队又经历了新一轮架构调整和人员变动。这个 2018 年成立的团队已经换了三 代骨干。作为理想智驾第一号员工,郎咸朋向我们完整回顾了团队的发展演变历程,他加入理想以来的 工作理念和方法,并首次回应了外界对理想新技术的质疑。 以下是访谈及少量追加问答的主要内容,经编辑。灰色引用模块则是我们做的信息补充: 不可能用华为的方式打 ...
清华团队提出AirScape:动作意图可控的低空世界模型,全面开源!
具身智能之心· 2025-11-05 17:00
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Baining Zhao等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 人类空间感的重要组成部分之一,是对自身移动会产生的视觉观测变化的预期。这对于空间移动下的任务/动作决策至关重要。 因此,推演和想象是具身智能领域的基础问题之一,表现为预测:如果本体执行移动意图,那么具身观测将会如何变化。 现有世界模型的研究主要聚焦于人形机器人和自动驾驶应用,它们大多在二维平面上操作,动作空间有限。 具体而言,关键挑战包括: 为此,清华大学团队提出 AirScape ,专为六自由度(6DoF)空中具身智能体设计的生成式世界模型。 利用提出的 11k 视频-意图对数据集 ,对视频生成基础模型进行监督微调。这一阶段使模型获得对低空动作意图的基本理解和生成能力。 AirScape 能基于当前的低空视觉观测和动作意图,推演未来的序列观测。 项目的数据集和代码已全面开源。 低空世界模型数据集 为支撑低空世界 ...
极佳视界获新一轮亿元级 A1 轮融资,CEO:“物理世界 ChatGPT 时刻”将在 2 至 3 年内到来
AI前线· 2025-11-05 13:09
融资进展 - 极佳视界在两个月内完成第三轮融资,最新一轮为亿元级A1轮融资,由华为哈勃和华控基金联合投资[2] - 此前于今年8月底,公司已完成Pre-A和Pre-A+连续两轮数亿元人民币融资[2] 公司背景与团队 - 公司成立于2023年,聚焦物理AI,专注于世界模型驱动的物理世界通用智能[2] - 核心团队紧密依托清华大学自动化系智能视觉实验室,成员来自清华、中科院等知名院校及百度、微软、地平线等企业,累计发表顶级AI论文200余篇,获数十项全球AI竞赛冠军[4] - 创始人兼CEO黄冠博士为清华大学自动化系博士,拥有微软、三星、地平线等企业研究经历,曾带领百人研发团队,并主导或参与融资累计超10亿元[4] 技术定位与行业趋势 - 世界模型技术价值已在当前阶段展现,能改善高维高质量数据稀缺和传统仿真器Sim2Real Gap两大问题,并提升强化学习训练效果[6] - 世界模型在数字世界建模物理世界和运行规律,使AI在陌生环境中少试错、更稳健[6] - 硅谷科技巨头如英伟达、Google DeepMind、特斯拉均已布局世界模型方向[6] - 华为将世界模型列为未来智能世界2035年十大技术趋势之首,并与极佳视界推进战略合作[7] 技术突破与预测 - 预测"物理世界ChatGPT时刻"将在2至3年内到来[8] - 世界模型、VLA和强化学习三者协同,有望在100种常见任务中实现90%场景下95%的成功率[8] - 公司具身世界模型能从少量真实数据中学习,构建统一模型并生成高保真合成数据,低成本填补数据缺口[9] - 模型能融合多模态反馈优化Sim2Real Gap,并作为强化学习的高保真训练环境,提升真实世界表现[9] 产品性能与优势 - GigaBrain-0在对比中展现出更优异的性能提升潜力[10] - 相比其他方法,训练数据来源更丰富,在纹理、光照、视角变化下表现更鲁棒、泛化性更好[12] - 架构更深,关键子模块引入更深层建模,操作表现更精细[12] - 提供大小双版本模型,小模型可达大模型约90%效果,且可在端侧Orin实现实时推理[12] 商业化与合作 - 公司已与多地人形机器人创新中心、实训场、科研院校、云计算公司等达成深度合作,打造虚实结合数据工厂和具身智能平台[13] - 在世界模型和VLA大模型场景落地方面,与全球汽车行业巨头、头部具身本体公司、多个应用场景巨头达成深度合作,探索驾驶、工业、服务、家庭等场景的物理AI应用[13] - 未来公司将推进物理AI智能模型研发迭代,加速通用具身人形本体研发,并通过"智能-本体-场景"三位一体加速商业化落地[14]
谷歌Dreamer大神离职,自曝错过Transformer
36氪· 2025-11-05 10:20
刚刚,「Dreamer」大神Danijar Hafner,宣布离开他曾工作近十年的谷歌。 离职前Danijar担任Google DeepMind旧金山分部的资深研究科学家(Staff Research Scientist)。 他的研究目标是「构建能够理解世界并与世界互动的通用智能体」。 作为谷歌世界模型大牛,Danijar曾主导/联合主导了Dreamer系列(Dreamer、DreamerV3、Dreamer4 等)的开发。 Danijar Hafner 他在推文中写道:「今天是我在DeepMind的最后一天」。 回顾了在Google和DeepMind将近10年的工作经历,Danijar认为「一个重要的篇章走到了终点」。 Danijar在谷歌的早期经历,多是以研究员的身份参与谷歌研究院、DeepMind、Brain Team等团队的工作。 从他的教育经历中,也能清晰看出他的职业发展轨迹。 | Researcher 研究员 | Google (google.com) | | 2023 - Present | | --- | --- | --- | --- | | 谷歌 (google.com) | | | 20 ...
理想郎咸朋:VLA 加强化学习将成为车企真正的护城河
晚点LatePost· 2025-11-04 16:03
公司战略与技术路线 - 公司认为无法在竞争对手已建立的规则方案战场上取胜,必须开辟新战场,通过技术代际提升实现超越 [13][14][16] - 公司自动驾驶发展遵循明确时间节点:2021年确认技术方案,2023年拿到入场券,2025年成为顶级公司,2027年实现L4常态化运营 [41] - 公司战略从跟随转向引领,2023年底至2024年初资源充足后,目标变为在智能化上显著超越华为 [16] - 技术路线经历三次重大演变:从规则方案到端到端模型,再到当前的视觉-语言-行动模型,每次转变都是为了建立新竞争优势 [5][16][18] 视觉-语言-行动模型技术 - VLA模型旨在让自动驾驶系统具备类似人类的思考推理能力,而非单纯模仿驾驶行为,项目代号为“斯芬克斯” [5][21] - 公司认为VLA结合强化学习将形成新的护城河,并演化成未来企业走向人工智能的护城河 [6] - 针对外界对VLA多模态对齐、数据训练、模型幻觉和芯片适配的质疑,公司回应称已具备相关能力积累,现有数据量达十几亿公里 [21][24][39] - VLA车端模型参数量为40亿,云端模型目标为320亿,公司认为驾驶任务不需要像GPT-3那样1750亿的超大模型 [37] 组织架构与团队管理 - 公司近期将智驾团队重组为11个二级部门,部门负责人直接向研发高级副总裁汇报,旨在打造更扁平、高效的AI组织 [8][9] - 团队发展已历经三代骨干更替,核心管理者和技术负责人均从内部培养成长 [52] - 公司宣布取消大规模封闭研发模式,转向各部门发挥业务专长共同协作,体现对员工的关怀和管理思路转变 [10] - 团队规模控制在千人左右,坚持精兵策略,认为数据闭环和强化训练闭环成熟后无需数千人团队 [60][61] 数据与算力基础设施 - 公司认为自动驾驶的本质是高效运营数据闭环,其能力公式为有效驾驶区域 = 算法能力 × 有效数据量 × 数据闭环效率 [42][58][59] - 公司累计数据量从2021年前不到1亿公里,发展到如今十几亿公里,并有意识采集高质量数据而非盲目追求数据量 [39] - 公司当前云端算力为100亿亿次浮点运算的训练算力加30亿亿次浮点运算的推理算力,去年投入约10亿元人民币达到80亿亿次浮点运算算力 [33][36] - 算力投入不设上限,未来训练与推理算力预计各占一半,最终将收敛到合理数值 [33][34][35] 技术演进与行业竞争 - 端到端模型在2023年量产落地,解决了跟随慢车不绕行、复杂路口看不懂红绿灯等长尾问题,使公司跻身智驾第一梯队 [12][16][19] - 公司认为端到端模仿学习存在天花板,今年春节后资源加速向VLA倾斜,目标是实现L4级自动驾驶 [19][20] - 针对特斯拉FSD进入中国,公司认为双方目前差距尚未拉开,但VLA强化闭环实现自我迭代后将形成代际差别,有望在中国市场超越特斯拉 [44] - 公司观察到特斯拉最新FSD版本也已引入语言模块和多模态任务,与VLA理念高度一致,双方技术路径方向一致但实现细节不同 [44][45] 研发历程与关键节点 - 公司智驾自研起步于2021年的“卫城”项目,团队不足100人,用90天交付基础辅助驾驶功能,完成从0到1的突破 [11][49][51] - 研发过程中曾经历高强度封闭开发,例如为交付端到端1000万片段版本,核心团队持续两三个月每天早晨8点开晨会 [12] - 2019年资源极度匮乏时期,团队曾使用碰撞测试报废车辆安装价值300多万元的激光雷达进行技术预研 [54] - 从2021年交付基础辅助驾驶到2023年实现城市导航辅助驾驶,公司通过连续封闭开发完成了关键功能追赶 [10][15]
对话郎咸朋:VLA 技术论战、团队换血与不被看好时的自我证明
晚点Auto· 2025-11-04 11:58
技术战略与路线选择 - 公司认为无法通过模仿领先者(如华为)的方式实现超越,必须开辟新的技术战场,因此选择研发下一代技术如“端到端”和VLA(视觉-语言-行动模型)以实现代际提升[3][13][16][17] - 2023年底公司决定从规则方案转向“端到端”架构,使智驾能力进入第一梯队;2024年初进一步选择VLA路径,目标是让系统具备类似人类的推理能力,而非单纯行为模仿,以争取成为没有争议的行业第一[3][16][19] - VLA被视为实现L4级自动驾驶的关键路径,其核心优势在于无监督训练和更高的迭代效率,预计最晚明年初用户可体验到显著提升;公司认为反对声音恰恰验证了VLA方向的正确性[3][18][23][24] 组织架构与团队演进 - 2024年9月公司对智驾团队进行重组,将原有4-5个二级部门拆分为11个部门,负责人直接向研发高级副总裁汇报,旨在打造更扁平的AI组织以提升决策效率和适应性[6][7][8] - 团队自2018年成立以来已更换三代骨干,早期成员多因资源投入分歧离职;当前核心管理层强调从内部培养,二级部门负责人均具备业务和技术背景,而非纯管理出身[8][46][47][49] - 公司取消大规模封闭研发模式,转向各部门发挥专长共同协作,反映其从追赶者到领先者的角色转变,同时注重员工关怀与可持续能力建设而非单纯压榨工时[8][9] 研发历程与关键节点 - 自研起步阶段(2019年)资源极度匮乏,团队曾使用碰撞测试报废车辆安装激光雷达进行预研,单个激光雷达成本达60-80万元,总投入约300余万元[3][50] - 2021年启动首个全栈自研项目“卫城”,团队不足100人,通过连续封闭开发(如每天全员到岗、凌晨加班)在90天内交付基础ADAS,并于同年12月交付高速NOA,奠定自研基础[10][44][45][46] - 数据积累从2021年前不足1亿公里快速增长至近年每年数亿公里,2023年有意控制数据采集量,聚焦高质量数据,当前保有量约十几亿公里,为模型训练提供支撑[34][35] 技术能力与资源投入 - 公司构建以数据闭环为核心的护城河,2023年“端到端”方案上线时通过“超级对齐”解决安全性问题,但过程痛苦,需核心团队持续数月每日早晨8点晨会[11][12] - 云端算力投入巨大,2023年约8 EFLOPS(对应10亿元人民币量级),当前训练算力达10 EFLOPS,推理算力3 EFLOPS,未来计划提升至32B参数模型,且投入不设上限[31][32][33] - VLA车端模型参数量为4B,通过工程优化部署至非大模型定制芯片;自研芯片将按AI需求设计,支持多芯片并联扩展算力,以应对存储带宽限制[23][33] 竞争对标与行业展望 - 公司认为与特斯拉FSD当前差距未拉开,但VLA加强化闭环实现自我迭代后,将形成代际优势,并有望凭借本土数据环境在中国市场超越特斯拉[39] - 针对特斯拉FSD V14,公司认可其表现(如修复95%犹豫变道问题),但指出其技术框架已包含Language模块,与VLA理念一致,双方路径趋同但实现细节不同[39][40] - 实现L4的最大挑战并非技术,而是大规模商业化落地,包括用户教育、法律法规和公众接受度;公司计划先聚焦国内市场,已设立创新业务部探索海外适配[40][41] 业务理念与领导力 - 公司坚持LSA(理想战略分析法)框架:认知决定战略、战略决定业务、业务决定组织与资源,强调在高峰时不膨胀、低谷时不放弃的长期执行力[52][53][54][62] - 研发高级副总裁将工作时间分配调整为50%管理、30%战略规划、20%技术业务,反映其从技术专家向业务管理者的转型,并深入参与L4商业化战略设计[58] - 公司培养人才注重全面业务理解,核心负责人需经历多岗位锻炼;校招生管理强调战略目标传达而非经验灌输,给予资源空间自主发挥[49][60]
从DriveVLA-W0出发:探讨世界模型如何放大VLA的扩展定律(中科院)
自动驾驶之心· 2025-11-04 08:03
戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>直播和内容获取转到 → 自动驾驶之心知识星球 点击按钮预约直播 在自动驾驶领域,通过大规模数据来扩展视觉-语言-动作模型,为构建更通用的驾驶智能提供了一条充满前景的道路。然而,VLA模型一直面临" 监督缺失 "的问 题:其庞大的模型能力仅由稀疏、低维的动作信号进行监督,导致其大部分表征潜力未能得到充分利用。 为解决此问题,中科院和华为引望的团队提出了 DriveVLA-W0, 一种利用世界模型来预测未来图像的训练范式。 为验证DriveVLA-W0的通用性,本文在两种主流 VLA架构上展开验证:针对采用离散视觉token的VLA模型,设计自回归世界模型;针对基于连续视觉特征的VLA模型,设计扩散世界模型。基于世界建模学习到的 丰富表征,本文进一步引入轻量级动作专家(action expert),以解决实时部署中的推理耗时问题。 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 DriveVLA-W0: 利用世界模型放大VLA的 拓展定律 时间:11.4 / 19:30-20:30 直播简介 VLA模型是通向通用自动驾驶的希望路 径,却受限于"监督赤字": ...
极佳视界完成新一轮亿元级A1轮融资 华为哈勃和华控基金联合领投
证券时报网· 2025-11-03 19:36
融资信息 - 极佳视界完成新一轮亿元级A1轮融资,投资方为华为哈勃与华控基金联合投资 [1] - 此前在8月底,公司已完成Pre-A及Pre-A+连续两轮数亿元融资 [1] 公司业务与技术定位 - 公司成立于2023年,聚焦物理AI,专注于“世界模型驱动的物理世界通用智能” [1] - 产品包括世界模型平台GigaWorld、具身基础模型GigaBrain、通用具身本体Maker等物理AI全栈软硬件产品 [1] - 世界模型技术价值已在当前阶段展现,对高维高质量数据稀缺、传统仿真器Sim2Real Gap问题产生改善,并提升强化学习训练效果 [1] 行业趋势与战略合作 - 世界模型被公司及行业认为是具身智能关键且热门的方向,华为将其列为未来智能世界2035年十大技术趋势之首 [1] - 华为不仅进行投资,还从多个业务线与极佳视界推进战略合作 [1] 技术展望与发展规划 - 公司预测“物理世界ChatGPT时刻”将在2至3年内到来 [2] - 世界模型、VLA、强化学习三者协同,目标是在100种常见任务中,于90%的场景下达到95%的成功率 [2] - 未来公司将推进物理AI智能模型研发迭代,加速通用具身人形本体研发,并打造标杆场景商业化应用落地 [2]
詹锟兼任理想美国硅谷研发中心负责人并将直播讨论世界模型与VLA
理想TOP2· 2025-11-03 15:33
动驾! H 线上直播 特斯拉FSD v14畅聊,有哪些技术值得国内关注? 中 * 世界模型和VLA未来发展方向探讨,是否有可能走 向融合统一? * 数据和算力的高需求导致学术界越来越难以参与智 驾的游戏,学术界还有哪些机会? FSD v14 藏了 VLA 吗? 谁在定义自动驾驶下一代方案: WA vs VLA 詹锟 北航自动化硕士,理想汽车 VLA团队高级总监,兼任理 想汽车美国硅谷研发中心的负 责人 连线嘉宾 圆桌正当时 江岸青 早稻田大学博士,博世中央 研究院高级算法科学家, vla/闭环算法 研究team leader 许凌云 中国科学院博士,卡内基梅 隆机器人研究所博士后。现 任长安汽车泊车团队负责人 张志鹏 上海交通大学人工智能学 院PI,博士生导师 主持人 Gloria 自动驾驶之心联创 刘斯坦 知乎大V,深度流光联合创 始人 & CTO | 19:30 扫描二维码免费观看 ...
华为哈勃+华控基金联合领投极佳视界A1轮,引领物理AI终局路线
36氪· 2025-11-03 13:12
行业趋势与巨头布局 - 世界模型在具身智能领域快速升温,谷歌、OpenAI、特斯拉、英伟达等科技巨头已密集布局[3] - 业内人士判断世界模型将缓解具身智能在数据稀缺与泛化困难上的瓶颈,并可能成为2026年的核心技术趋势[3] - 华为将世界模型列为未来智能世界2035年十大技术趋势之首,这构成了其投资相关公司的底层逻辑[8] 公司融资与市场认可 - 极佳视界在近两个月内连续完成三轮融资,包括由华为哈勃、华控基金联合投资的亿元级A1轮融资,以及此前8月底完成的Pre-A&Pre-A+连续两轮数亿元融资[3] - 2个月完成3轮融资体现了资本市场对公司团队实力、技术路线和业务推进的认可,也折射出投资方对“物理世界通用智能”关键转折点的判断[4] - 公司成立于2023年,专注于世界模型驱动的物理世界通用智能,产品包括世界模型平台GigaWorld、具身基础模型GigaBrain等全栈软硬件产品[4] 世界模型的技术价值与定义 - 世界模型是在数字世界里建模物理世界和运行规律,让AI在动手前先在“脑内”搭建物理沙盒进行预测,从而在陌生环境中少试错、更稳健[7] - 公司认为世界模型的技术价值已在当前阶段展现,能在高维高质量数据稀缺、传统仿真器Sim2Real Gap两大问题上产生改善,并提升强化学习训练效果[6] - 世界模型将主要解决泛化性,与VLA(解决作业复杂性)、强化学习(解决准确率和可靠性)协同,目标是在100种常见任务中90%的场景下达到95%的成功率[9] 公司技术优势与团队背景 - 公司核心团队紧密依托清华大学自动化系智能视觉实验室,成员来自顶尖院校和知名企业,累计发表顶级AI论文200余篇,获数十项全球AI竞赛冠军[10] - 创始人兼CEO黄冠博士为清华大学自动化系博士,拥有微软、三星、地平线等企业研究经历,并主导或参与融资累计超10亿元[11] - 公司具身世界模型是系统性解决方案,能从少量真实数据中学习并生成大量高保真合成数据,以极低成本填补数据缺口,并显著提升生成数据的真实性与可用性[11] 产品性能与商业应用 - 公司产品GigaBrain-0在对比中展现出更优异的性能提升潜力,其训练数据来源更丰富,在纹理、光照、视角变化下表现更鲁棒、泛化性更好[13][14] - GigaBrain-0架构更深,关键子模块引入更深层建模使操作表现更精细,并拥有大小双版本模型,小模型可达大模型约90%效果且可在端侧Orin实现实时推理[14] - 公司已与多地人形机器人创新中心、实训场、科研院校及全球汽车行业巨头等达成深度合作,共同探索物理AI在驾驶、工业、服务、家庭等场景的落地[15]