世界模型
搜索文档
工业界和学术界都在怎么搞端到端和VLA?
自动驾驶之心· 2025-10-17 08:03
端到端自动驾驶技术趋势 - 端到端算法是当前自动驾驶量产的核心算法,技术栈丰富,业内主要存在一段式和两段式两大类范式 [1] - 一段式范式以UniAD为代表,直接从传感器输入建模自车轨迹输出,而二段式则基于感知结果进一步输出自车和他车轨迹 [1] - 一段式端到端算法可进一步延伸出基于感知、扩散模型、世界模型以及视觉语言模型(VLA)等多种子领域,尤其是基于VLA的算法相关论文正爆发式发表,工业界也在争先量产 [1] 自动驾驶VLA与大模型技术 - 核心算法涉及BEV感知、视觉语言模型(VLM)、扩散模型、强化学习、世界模型等,代表了学术界和工业界最前沿的技术方向 [3] - 自动驾驶VLA与大模型实战课程聚焦VLA领域,内容涵盖从VLM作为自动驾驶解释器,到模块化VLA、一体化VLA,以及当前主流的推理增强VLA [3] - 课程配套理论基础梳理,包括Vision/Language/Action三大模块、强化学习、扩散模型等,并设有大作业章节指导从零搭建VLA模型及数据集 [3] 课程师资与团队 - 课程教师团队包括来自清华大学等顶尖院校的研究人员,在ICCV、IROS、EMNLP等国际顶级会议发表多篇论文,研究方向涵盖多模态感知、自动驾驶VLA、大模型Agent等前沿领域 [8][11] - 教师团队具备丰富的自动驾驶、大模型研发和实战经验,例如有教师主持完成多项自动驾驶感知和大模型框架工具,其维护的开源项目总Star数超过2k [8] - 工业界教师团队包括来自国内顶级主机厂的算法专家,拥有CCF-A/B论文发表记录,并主持完成多项自动驾驶感知和端到端算法的产品量产交付,具备丰富的端到端算法研发经验 [12][14] 端到端自动驾驶课程内容 - 端到端与VLA自动驾驶课程由工业界专家带队,聚焦端到端自动驾驶宏观领域,梳理一段式/两段式方向的重点算法和理论基础 [12] - 课程详细讲解BEV感知、大语言模型、扩散模型和强化学习等关键技术 [12] - 课程设计两大实战项目:基于扩散模型的Diffusion Planner和基于VLA的ORION算法 [12] 课程参与要求 - 参与者需要自备GPU,推荐算力在RTX 4090及以上 [15] - 参与者需具备一定的自动驾驶领域基础,熟悉自动驾驶基本模块,并了解transformer大模型、强化学习、BEV感知等技术的基本概念 [17] - 参与者需具备一定的概率论和线性代数基础,熟悉常用数学运算,并具备一定的Python和PyTorch语言基础 [17]
蔚小理智驾部门“大换血”:技术路线转向世界模型,智能化下半场突围战承压
36氪· 2025-10-16 15:33
行业竞争逻辑转变 - 2025年电动化渗透率突破50%的拐点来临,行业共识是“电动化决定车企下限,智能化决定车企上限” [1] - 智驾作为“皇冠上的明珠”,成为下半场竞争的核心战场 [1] 蔚小理智驾部门人事与战略调整 - 蔚来、小鹏、理想三家头部新势力在短短数月内发生17位高管岗位变动,进行自动驾驶部门“大换血” [1] - 小鹏汽车人事调整最为跌宕,智驾北美负责人朴一树、视觉感知负责人王弢离职,由袁婷婷、刘先明等接任重要职位 [2] - 小鹏汽车技术路线从VLA全面转向具备物理世界推演能力的“世界基座模型” [4] - 蔚来呈现“架构重构+核心流失”局面,技术专家胡成臣、算法核心樊昊阳、世界模型负责人马宁宁等骨干离职 [4] - 蔚来将感知和规控团队合并为大模型团队,构建“4×100接力棒”研发模式,旨在冲刺世界模型2.0,其NWM已实现100毫秒内推演216种轨迹的能力 [4] - 理想汽车智驾团队规模从峰值缩减至800人,技术路线经历多次转向后确立“VLA+世界模型融合”路线,其OTA 8.0.1版本在环岛场景通过率超90% [5] - 三家公司的调整共同指向行业共识:传统模块化智驾方案已触瓶颈,世界模型成为通向L3/L4的必经之路 [7] 外部竞争压力 - 传统车企如长城、广汽、比亚迪快速追赶,比亚迪智能驾驶车型累计销量已突破71万辆 [8] - 华为等科技巨头构成威胁,其ADS 4.0系统以0.6次的超低接管次数稳居第一梯队,并通过“HIPLUS”模式构建行业性技术基础 [8] - 路测数据显示,传统车企与新势力的技术差距正快速缩小,头部传统车企已对第二梯队新势力实现“贴身紧逼” [10] 资金与研发投入挑战 - 智驾、AI、芯片等领域的研发投入巨大,蔚来2024年研发费用达130.4亿元,其中大量投向NWM架构与自研芯片 [10] - 小鹏的自研芯片多次延期,部门墙问题加剧成本压力;理想虽盈利,但智驾团队调整与技术转向带来隐性成本 [10] 差异化应对策略 - 小鹏押注“云端基座模型+车端蒸馏”模式,以万卡智算集群实现5天一次迭代,720亿参数模型已实现车端控车 [11] - 蔚来采取“自研+合作”策略,在推进NWM 2.0的同时与Mobileye合作快速落地L2+功能 [11] - 理想通过整合芯片、OS、模型等部门,以“高效协同”降低成本 [11]
AI与机器人盘前速递丨马斯克旗下xAI公司构建“世界模型”;新益昌正式发布机器人!
每日经济新闻· 2025-10-15 09:11
市场表现 - 科创人工智能ETF华夏收报1.432元,跌幅3.83%,成交额约2.41亿元,成交量1.67亿份,成分股30只中仅1只上涨 [1] - 机器人ETF收报1.009元,跌幅4.09%,成交额达18.25亿元,成交量超17.7亿份,成分股73只中仅1只上涨 [1] - 合合信息逆势上涨1.92%,海得控制逆势上涨4.78%,而双环传动、鸣志电器、绿的谐波、中控技术等板块核心权重股跌幅均超6% [1] 行业动态 - 马斯克旗下xAI公司正构建"世界模型",与Meta和谷歌等对手角逐下一代AI系统,并将游戏与机器人视为验证世界模型的首批应用方向 [2] - 新益昌发布具身智能机器人HOSON-Robot,将人形机器人业务列为公司战略发展核心,并持续在机器人"小脑"运动控制器、混合智能架构模型等领域推进研发 [2] - 亚马逊云科技推出Agentic AI应用Amazon Quick Suite,可连接企业内部知识库及超1000个应用,旨在帮助员工自动化任务和开展深度研究 [2] 机构观点 - 持续看好板块行情,特斯拉第三代新品发布及明年展望逐步清晰利好板块β表现 [3] - 国产链条预计下半年来自于资本运作、订单出货、场景落地等消息将不断催化,建议重视板块布局机会 [3]
复旦SeerDrive:一种轨迹规划和场景演化的双向建模端到端框架
自动驾驶之心· 2025-10-15 07:33
文章核心观点 - 端到端自动驾驶现有方案存在忽略场景动态演化和忽视车辆行为对环境影响两大问题 [1][5] - SeerDrive提出轨迹规划与场景演化的双向建模范式,通过预测未来BEV表示捕捉场景动态,并让规划结果反馈给场景预测优化,形成闭环迭代 [3][4] - 该方法在NAVSIM和nuScenes数据集上达到SOTA性能,PDMS分数达88.9,超越Hydra-NeXt等现有方法 [23][24] SeerDrive设计原理 - 整体pipeline包含特征编码、未来BEV世界建模、未来感知规划、迭代优化四大模块 [4] - 核心是通过"预测未来场景→指导规划→反馈优化场景"的闭环实现双向交互 [4] - 采用解耦策略让当前与未来场景分别指导规划,再通过运动感知层归一化融合结果 [15] 技术实现细节 - 特征编码将多模态传感器输入和车辆自身状态编码为结构化特征,生成当前场景BEV特征图 [7][8] - 未来BEV世界建模基于当前BEV和ego特征预测未来场景演化,生成未来BEV特征而非复杂图像 [10][11] - 未来感知规划采用解耦策略分别利用当前感知与未来场景预判,避免表示混淆 [14][15] - 引入闭环迭代优化强化轨迹规划与场景演化的双向依赖,实验验证迭代2次时性能与效率最优 [16][17][18] 实验验证结果 - NAVSIM测试集上PDMS分数达88.9,超越Hydra-NeXt(88.6)、WoTE(88.3)等方法 [23] - 采用V2-99骨干网络时PDMS进一步提升至90.7,超过GoalFlow的90.3且计算成本更低 [23] - nuScenes验证集平均L2位移误差为0.43m,平均碰撞率为0.06%,显著优于SparseDrive等方法 [24] - 消融实验表明去掉未来感知规划或迭代优化均导致PDMS下降,验证双向建模和迭代优化的关键作用 [26][27] 行业技术对比 - 与UniAD、VADv2等方法仅优化规划过程不同,SeerDrive建模场景演化与规划的双向依赖 [37] - 与世界模型DriveDreamer等生成高保真图像相比,SeerDrive采用BEV表示更轻量且适配规划需求 [44] - 与WoTE仅用世界模型从候选轨迹中选最优不同,SeerDrive将未来BEV作为规划的特征级输入实现深度交互 [44]
学术和量产的分歧,技术路线的持续较量!从技术掌舵人的角度一览智驾的十年路....
自动驾驶之心· 2025-10-15 07:33
自动驾驶技术十年发展回顾 - 自动驾驶行业自2015年蓬勃发展至今已走过十年历程 [3] - 十年间涌现出视觉Transformer、BEV感知、多传感器融合、端到端自动驾驶、大模型、VLA、世界模型等众多闪耀技术 [3] - 自动驾驶的量产方案在技术发展过程中互相碰撞和融合 [3] 圆桌对话核心议题 - 回顾过去10年自动驾驶技术迭代的几个里程碑事件 [13] - 复盘过去两年自动驾驶领域的发展 [13] - 探讨世界模型和VLA的技术路线之争 [4][13] - 分析端到端是否已成为智驾技术栈的基石 [13] - 探讨学术界和工业界对L3自动驾驶的思考 [4][13] - 分析学界研究方向在收敛而工程端在拼落地的现状 [13] - 为新入行的自动驾驶人提供职业发展建议 [4][13] 主讲嘉宾背景 - 崔轲迪担任百度BV风投副总裁 [5] - 孙昊现任博世中央研究院自动驾驶负责人,研究方向为自动驾驶感知和端到端智能系统,拥有新加坡国立大学博士和麻省理工新加坡研究中心博士后经历 [5] - 许凌云现任长安科技泊车业务负责人,拥有中国科学院博士和卡内基梅隆机器人研究所博士后经历,曾获DARPA SUBT无人车挑战赛2019年世界冠军 [5] - 郑文钊为加州大学伯克利分校人工智能实验室博士后研究员,在TPAMI、CVPR等顶级期刊会议发表论文50余篇,谷歌学术引用2700余次 [6] 活动信息 - 圆桌对话定于10月15日晚举行 [9] - 活动由自动驾驶之心运营负责人Gloria和知乎大V刘斯坦共同主持 [7][8] - 完整版深度内容已独家上线知识星球「自动驾驶之心」,涵盖所有技术细节、QA及未公开内容 [17]
马斯克挖角英伟达团队,机器人ETF鹏华(159278)冲刺连续4日净申购
新浪财经· 2025-10-14 11:57
消息面上,机器人板块近期迎来密集催化: 1、马斯克挖角英伟达核心团队加码机器人,海关总署-前三季度我国工业机器人出口增长54% 2、马斯克布局世界模型,AI能力加速拓展到实体。马斯克旗下的xAI正加速推进世界模型研发。xAI已 从英伟达挖来两名核心研究员Zeeshan Patel和Ethan He,计划将世界模型技术应用于游戏和机器人领 域。世界模型是一种能够理解物理环境动态特征的生成式AI模型,它可以利用文字、图像、视频及动 作数据生成影片,并实现对现实世界的自主导航与模拟。与当前主流的大语言模型不同,世界模型通过 学习视频和机器人数据来理解现实世界,致力于将AI能力拓展至实体产品。 3、10月13日国新办举行新闻发布会,介绍2025年前三季度进出口情况。海关总署数据,我国制造的机 器人应用场景更加丰富,不断走俏国际市场,前三季度,我国出口工业机器人增长54.9%。机器人销售 高增夯实机器人行情。 4、杭州政府今日召开市政府常务会议。研究《杭州市促进具身智能机器人产业发展条例(草案)》 《深入实施"春晖计划"降低企业成本若干措施》等事项。要全方位做好政策宣传解读,持续增强企业发 展信心,更好形成具身智能机器 ...
马斯克背刺英伟达?你投资,我挖角!
搜狐财经· 2025-10-14 09:53
马斯克的操作永远是那么出人意料。前段时间马斯克的 xAI 获得了英伟达的投资,本以为双方合作共赢,没想到马斯克反手就对英伟达的人才下手,挖来 了两名核心研究员——Zeeshan Patel和Ethan He,目的就是为了加速其宏伟的世界模型项目。 所谓世界模型,听起来颇具科幻色彩,但它被普遍认为是通往AGI圣杯的关键路径之一。简单来说,就是让AI不仅能理解语言和图像,更能理解我们这个世 界的物理规律,能像人一样进行常识性的推理和预测。 这次加入xAI的两位专家,履历都相当亮眼。他们在英伟达期间,都是Omniverse平台的核心贡献者。Omniverse是一个用于创建和模拟虚拟世界的平台,这 与xAI想要构建的世界模型在理念上不谋而合。可以说,这二位的加盟,几乎是带着说明书来的。 Zeeshan Patel是一位专注于多模态模型与物理AI的学者。他的研究方向,旨在教会AI如何理解和预测物理世界中的互动,比如一个物体会如何滚动、弹跳或 破碎。而Ethan He则深耕于视频自监督学习和多模态模型领域,他的工作重点是让AI能通过观察海量视频,自主学习世界的运行规则,而无需人类进行繁琐 的手动标注。 这两位技术大牛的加 ...
早报|三大运营商eSIM手机业务上线;西贝回应新公司涉及预包装食品;库克在抖音完成直播带货首秀;天府大道车祸系酒驾事故
虎嗅APP· 2025-10-14 08:08
eSIM手机业务商用 - 中国移动、中国联通和中国电信正式启动eSIM手机业务商用试验,中国联通网上预约人数已达68,356人[2][3][4] 苹果新产品发布 - 苹果CEO库克在抖音直播宣布iPhone Air将于下周在中国正式发售,直播观看人数持续保持在10万以上[5] 中美航运政策 - 中方对美船舶收取特别港务费正式施行,豁免中国建造船舶及进入中国船厂修理的空载船舶[7][8] - 中美双方自10月14日起相互对对方船舶征收高额港口费,中方按每净吨400元起征,美方对中资船舶每净吨50美元起征[28] 微软操作系统支持 - 微软将于2025年10月14日停止对Windows10系统提供安全更新和技术支持,建议用户升级至Windows11或参加扩展安全更新计划[9][10] 人工智能芯片合作 - OpenAI与博通宣布战略合作,计划于2026年推出定制数据中心芯片,部署10吉瓦的AI加速器,博通盘前股价上涨12%[11] 无人机行业竞争 - 大疆多款产品降价促销,影石CEO公开致歉并为其客户提供100元无门槛代金券,引发行业竞争关注[14][15] 半导体行业动态 - 荷兰政府计划对闻泰科技旗下安世半导体采取限制措施,中方表示反对将经贸问题政治化[26][27] 人工智能技术发展 - 马斯克旗下xAI公司加速研发"世界模型",计划2025年底推出AI生成游戏,突破文本局限实现具身智能[29] 企业高层变动 - 万科企业董事长辛杰因个人原因辞职,选举黄力平为新任董事长[21] 企业业务澄清 - 西贝注册新公司澄清不涉及预制菜新业务,主营业务为餐饮服务及预包装食品销售[22] 社交媒体技术故障 - 小红书出现图片评论无法显示等技术故障,官方回应已恢复正常[23][24]
马斯克从英伟达挖人做AI游戏!第一步:研发世界模型
具身智能之心· 2025-10-14 08:02
xAI入局世界模型 - 马斯克的xAI公司已正式进入世界模型研发领域,加入与Google DeepMind、Meta、英伟达等巨头的竞争 [2][7][8] - 为增强实力,xAI于2024年夏季从英伟达挖来多名资深研究员,包括Zeeshan Patel和Ethan He [2][9][16] 核心人才引进 - Zeeshan Patel于2024年5月硕士毕业于UC伯克利,研究方向为深度学习、生成模型和物理人工智能,此前曾在英伟达研究院从事生成式世界模型研究 [10][11] - Ethan He本科毕业于西安交通大学,在CMU获得计算机视觉硕士学位,其Google Scholar被引数高达8495,在加入xAI前于英伟达从事MoE模型、多模态模型和世界模型研究 [12][13][15][16] - 两位研究员均参与了英伟达Omniverse平台的核心开发工作,该平台是全球最成熟的物理一致性仿真系统之一 [18][19][20] 世界模型的战略意义与技术路径 - 世界模型被视为实现AGI(通用人工智能)的核心底座,其目标是让AI系统真正理解和推理物理3D世界,而不仅限于文本处理 [23][24][26] - xAI计划将英伟达在图形与物理模拟领域的积累(如Omniverse技术)应用到自家的世界模型体系中 [21][22] - 世界模型的应用前景广泛,可驱动AI游戏、智能体、自动驾驶乃至具身智能机器人 [38][39] 游戏领域作为首要落地场景 - xAI入局世界模型后的首批落点可能是电子游戏,团队正尝试让AI自动生成自适应、逼真的3D场景,并能根据玩家行为实时变化 [30][31] - 马斯克设下目标,计划在2026年底前推出一款由世界模型驱动的AI生成游戏 [3][32] - 为达成目标,xAI正在组建全模态团队(Multimodal Team),并公开招聘“电子游戏导师”(Video Games Tutor),时薪45–100美元,旨在向模型讲解游戏机制与设计逻辑 [33][34][35][36] 马斯克AI帝国的协同效应 - xAI的使命是“让AI理解宇宙的本质”,世界模型是实现该目标的关键路径 [37] - xAI、特斯拉、Neuralink、X平台之间可能形成协同效应:xAI研发模型,特斯拉提供机器人和自动驾驶数据,Neuralink提供脑机接口,X平台则作为社交与实时反馈渠道 [40][41]