自动驾驶 - 财报，业绩电话会，研报，新闻 - Reportify

自动驾驶

搜索文档

旧金山大停电引发Alphabet(GOOGL.US)旗下Waymo自动驾驶汽车陷入瘫痪，被迫全线升级应急系统

智通财经· 2025-12-24 17:29

事件概述 - Alphabet旗下自动驾驶公司Waymo因其无人驾驶出租车在旧金山大规模停电期间停滞导致交通混乱将更新软件并改进紧急响应协议 [1] - 事件发生于12月20日晚间太平洋燃气电力公司变电站火灾导致旧金山约三分之一地区停电影响约13万居民 [1] - 社交媒体视频显示由于交通信号灯停止工作 Waymo车辆滞留在十字路口并闪烁危险警示灯 [1] 事件原因与公司解释 - Waymo表示其自动驾驶汽车设计可处理信号灯熄灭的路口但车辆可能偶尔会请求进行确认检查 [1] - 在停电事件中公司车辆成功通过了超过7000个信号灯熄灭的路口但确认请求集中激增造成积压和响应延迟加剧了道路拥堵 [1] - 公司认为这些确认协议在早期部署阶段合理但当前需要完善以适应其运营规模 [1] 公司应对措施 - Waymo正在实施全车队的软件更新为车辆提供特定的停电场景信息使其能够更果断地导航 [1] - 公司将结合此次事件的教训改进其紧急响应协议 [2] - 公司已于周日恢复了在旧金山湾区的叫车服务 [2] 公司运营与监管动态 - Waymo在旧金山湾区、洛杉矶、亚利桑那州凤凰城都市区、得克萨斯州奥斯汀和佐治亚州亚特兰大运营着超过2500辆汽车 [2] - 加州公共事业委员会表示正在审查Waymo车辆停滞的问题该委员会与加州机动车管理局共同负责监管无人驾驶出租车的测试和商业部署 [2] - 本月早些时候 Waymo发布了一次召回以更新其自动驾驶汽车软件此前得克萨斯州官员表示自开学以来这些车辆至少19次非法超越校车这促使美国国家公路交通安全管理局在10月对此问题展开调查 [2]

自动驾驶汽车

无人驾驶出租车

自动驾驶汽车

无人驾驶出租车

业内首个RL+VLA汇总：强化学习如何推动 VLA 走向真实世界？

自动驾驶之心· 2025-12-24 17:22

文章核心观点 - 文章汇总了近期自动驾驶领域11篇结合视觉-语言-行动模型与强化学习的研究工作，指出行业研究重点已从传统的监督微调转向强化学习，以提升模型的泛化与推理能力，并解决幻觉问题 [2] - 这些研究来自全球顶尖高校与领先科技及汽车公司，代表了业界头部的研究方向 [2] 各研究模型核心贡献与性能总结 MindDrive (华中科技大学、小米汽车) - 核心贡献：提出双专家架构，通过决策专家进行场景推理与语言决策，动作专家将决策映射为轨迹，将连续动作空间转化为离散语言决策空间以提升在线强化学习效率 [6] - 性能表现：在Bench2Drive基准上，使用轻量级Qwen-0.5B模型实现了78.04的驾驶分数与55.09%的成功率，超越了同规模的最先进模型 [6] WAM-Diff (复旦大学、银王智能科技有限公司) - 核心贡献：采用离散掩码扩散迭代优化未来轨迹，结合稀疏混合专家架构和GSPO在线强化学习 [7] - 性能表现：在NAVSIM基准上实现了优异的性能 [7] LCDrive (得克萨斯大学奥斯汀分校、NVIDIA、斯坦福大学) - 核心贡献：设计潜在思维链推理机制，使用动作提议令牌与潜在世界模型令牌在向量空间模拟反事实未来，提升推理效率与精度 [12] - 性能表现：在PhysicalAI-AV数据集上验证，相比文本链推理基线，实现了更快推理、更优轨迹质量与更强的强化学习提升效果 [12] Reasoning-VLA (兰州大学、新加坡国立大学、中国科学技术大学、清华大学、新南威尔士大学) - 核心贡献：设计可学习动作查询与视觉语言模型跨注意力交互，支持一步并行生成连续轨迹；融合8个公开自动驾驶数据集构建统一训练数据以提升泛化能力 [13] - 训练策略：采用监督微调与强化学习两阶段训练，结合物理轨迹与车辆动力学奖励 [14] Alpamayo-R1 (NVIDIA) - 核心贡献：构建因果链数据集，提供高质量的决策接地因果推理轨迹；设计模块化架构，融合物理AI预训练的视觉语言模型骨干与流匹配轨迹解码器 [18] - 性能表现：实现99毫秒的实时推理延迟；在闭环仿真中，越野率降低35%，近距离接触率降低25% [18] AdaThinkDrive (清华大学、小米汽车、澳门大学、南洋理工大学、北京大学) - 核心贡献：设计“快速响应/慢速思考”双模式自适应推理机制，让模型根据场景复杂度动态选择直接预测或思维链推理 [20] - 性能表现：在Navsim基准测试中取得90.3的PDMS分数，较最优视觉基线提升1.7点，同时较“始终推理”基线减少14%推理时间 [20] AutoDrive-R² (阿里巴巴集团、昆士兰大学、兰州大学、凯斯西储大学) - 核心贡献：构建nuScenesR²-6K数据集，采用“观察-计算-逻辑推理-反思验证”四步逻辑链；设计融合空间对齐、车辆动力学和时间平滑性的物理基奖励框架 [25] - 性能表现：在nuScenes和Waymo数据集上实现最先进性能，7B版本平均L2误差低至0.20米，零样本迁移能力突出，较EMMA+等模型降低33.3%误差 [25] IRL-VLA (博世（中国）投资有限公司、上海大学、上海交通大学、博世汽车部件（苏州）有限公司、清华大学) - 核心贡献：提出轻量级奖励世界模型，基于逆强化学习从多模态数据中学习奖励结构，规避对仿真器的依赖；设计融合语义推理、3D推理与扩散规划器的视觉-语言-行动架构 [31] - 性能表现：在NAVSIM v2基准上取得最先进性能，并获得CVPR2025自动驾驶挑战赛亚军 [31] DriveAgent-R1 (上海启智研究院、理想汽车、同济大学、清华大学) - 核心贡献：首次将主动感知应用于高级行为规划，设计含检索视图、感兴趣区域检查等工具的视觉工具包；提出结合文本推理与工具增强推理的混合思维框架 [32] - 性能表现：仅3B参数就达到与GPT-5和人类驾驶相当的性能，在Drive-Internal测试集上使用工具后准确率提升6.07%，推理延迟较被动感知方法降低20%以上 [32] Drive-R1 (中国科学技术大学、华为诺亚方舟实验室) - 核心贡献：构建涵盖交通知识理解等五大领域的RP-COT数据集，提供长短链推理标注；设计基于GRPO的强化学习机制，结合多维度奖励对齐推理与规划 [37] - 性能表现：在nuScenes和DriveLM-nuScenes基准上实现最先进性能 [37] ReCogDrive (华中科技大学、小米汽车) - 核心贡献：设计生成、精炼、质控三阶段分层数据管道，构建大规模视觉问答数据集以注入驾驶先验；提出认知引导扩散规划器，将视觉语言模型语义转化为连续轨迹 [38] - 性能表现：在NAVSIM等基准实现最先进性能 [38]

Momenta曹旭东定义公司为“破冰船”：要有突破无人区的勇气

新浪财经· 2025-12-24 16:48

公司定位与愿景 - Momenta是一家自动驾驶公司，其核心产品是为每个家庭和用户提供AI司机 [1][4] - 公司定义了三个“十年愿景”：十年内挽救百万生命、十年内解放百分之百时间、十年内实现物流和出行效率翻倍 [1][4] 公司文化与创新理念 - 公司将自身属性定义为“破冰船”，象征着在人工智能+方向上，面对全新的产品形态、商业模式和技术，必须具备突破无人区的勇气 [3][6] - 公司办公室命名体现其文化：一类以大航海时代发现的新岛屿（如“好望角”、“塔希提岛”）命名，象征敢于探索、创新和发现价值的热情；另一类以科学家（如高斯、欧拉、爱因斯坦）命名，强调以科学方法进行发现和创新 [3][6] - 公司强调“低成本、短周期”的假设检验文化，这是由于创业公司的时间和资金有限所决定的 [3][6]

大摩重磅机器人年鉴（六）：自动驾驶正处于爆发前夜，中国已取得领先

华尔街见闻· 2025-12-24 15:32

全球自动驾驶行业核心观点 - 自动驾驶技术正处于从“0到1”爆发的前夜，将彻底改变人类出行方式与经济模型，并成为电动汽车产业的“终极加速器” [1][2] 中国市场的领先地位 - 中国在全球L2+级自动驾驶汽车市场中占据约60%的份额，处于领先地位 [1] - 领先优势得益于其在电动汽车领域的胜利，以及通过庞大电动车队构建的“数据探针”优势，即车辆作为移动数据收集器，通过闭环不断训练AI算法 [1][8] - 以小米SU7为例，其起售价约3.5万美元，展示了中国制造在成本控制上的巨大优势 [5] - 电动汽车天生更适合自动驾驶，因其默认采用线控驱动，且充盈的电力能大幅降低车队每英里运营成本，缩短投资回报周期 [5] 美国市场的技术路线之争 - 美国市场存在Waymo代表的“传感器冗余”派与特斯拉代表的“传感器简约”派之间的路线之争，报告将此比作19世纪末的“电流之战” [2][18] - Waymo采用L4级别方案，配备激光雷达、雷达和摄像头，单车传感器及计算硬件成本约3万美元，强调安全冗余，并正从凤凰城、旧金山向洛杉矶、奥斯汀、亚特兰大等主要城市快速扩张 [2][11] - 特斯拉采用纯视觉方案，以Model Y为例，其FSD硬件成本仅约3000美元，旨在通过庞大的车队数据实现超越，该方案引发了关于“纯视觉是否可行”的辩论 [2][16] 长期市场展望与预测 - 报告对自动驾驶长期普及率持极为乐观态度，预测其销量渗透率将在未来几十年内从几乎为零飙升至接近100% [21] - 预计到2030年，全球将有220万辆机器人出租车投入使用 [2][23] - 预计到2040年，全球机器人出租车数量将激增至2.45亿辆 [2][23] - 预计到2050年，全球自动驾驶汽车保有量将达到7.22亿辆 [2][23] 全球竞争格局与新兴力量 - 除中美巨头外，全球一批新兴企业也在加速自动驾驶进程，例如英国的Wayve、美国的Applied Intuition，以及中国的文远知行和小马智行，后者业务已延伸至中东和欧洲 [26]

机器人(SZ:300024)

特斯拉Model Y

Robotaxi（机器人出租车）

特斯拉Model Y

Robotaxi（机器人出租车）

小马智行上线无障碍功能全程语音交互+蓝牙解锁

中国质量新闻网· 2025-12-24 14:15

公司产品发布 - 小马智行于12月3日宣布上线无障碍功能，后续将覆盖所有自动驾驶车型 [1] - 该功能旨在为视障用户群体提供从下单叫车到行程结束的全程无障碍体验 [1] - 该功能已与视障用户群体进行了多轮沟通测试 [1] 产品功能细节 - 功能构建了全流程语音交互体系，视障用户需提前开启手机旁白或朗读功能 [3] - 在APP中双击对应车型，系统会实时播报车型信息以辅助确认选择 [3] - 车辆抵达后，双击APP内“播报找车”按钮，无人车会播放语音提示帮助用户定位车辆 [3] - 上车环节搭载蓝牙自动解锁技术，用户手机蓝牙开启并靠近车辆即可触发自动解锁并完成身份确认 [3] - 身份确认功能目前仅支持最新四座车型 [3] - 上车后，用户说出“开始行程”的语音指令即可启动车辆，全程无需手动操作 [3] - 通过“你好POPO”语音唤醒词，用户可调节空调温度、播放音乐 [3] - 公司后续还将上线更多语音控制功能 [3]

小马智行(HK:02026)

无障碍出行

小马智行无障碍功能

小马智行APP

无障碍出行

小马智行无障碍功能

小马智行APP

中芯国际部分涨价；京东回应巴黎仓库被盗抢丨科技风向标】

21世纪经济报道· 2025-12-24 10:59

核心观点 - 科技行业在人工智能、自动驾驶、商业航天及半导体等多个前沿领域均出现显著进展与商业动态，包括大模型开源、自动驾驶牌照发放、卫星互联网用户增长、半导体产能调整及多起重大投融资与并购事件 [1][2][3][4][6][7][8][9][10][12][13][14][15][16][17][18][19] 人工智能与模型开源 - 阿里通义开源新一代语音交互模型Fun-Audio-Chat-8B，适用于语音聊天、情感陪伴等多种场景 [3] - 智谱AI上线并开源旗舰大模型GLM-4.7，强化编程能力与长程任务规划，在多项基准测试中取得开源模型领先表现 [4] - 包括OpenAI、Anthropic、xAI在内的六家人工智能巨头遭多位作家起诉版权侵权，指控其未经授权使用书籍内容，每部侵权作品最高索赔可达15万美元 [8] - 面壁智能完成数亿元人民币融资，资金将用于加大端侧高效大模型研发投入，加速端侧AI商业化进程 [16] 自动驾驶与智能出行 - 北京市正式发放国内首批L3级高速公路自动驾驶车辆专用号牌，标志着自动驾驶由测试示范进入正式量产阶段 [13] - 亚马逊旗下自动驾驶公司Zoox因软件错误将在美国召回332辆汽车，问题涉及车辆在交叉路口可能驶入对向车道 [9] - 三星电子旗下哈曼国际将以15亿欧元（约合18亿美元）收购采埃孚集团的高级驾驶辅助系统（ADAS）业务，交易涉及约3750名员工，预计2026年下半年完成 [7] 半导体与硬件 - 中芯国际已对部分产能实施涨价，涨幅约为10%，原因包括手机应用和AI需求增长带动套片需求，以及原材料涨价 [14][15] - 台积电确认整合8英寸产能，并计划在2027年末关停部分生产线，引发晶圆厂涨价预期 [15] - 英伟达计划于明年2月中旬（中国农历春节前）向中国客户交付H200芯片，预计发货总量为5000至10000套芯片模组（相当于约4万至8万颗芯片），但交付仍存不确定性，中方尚未批准采购订单 [13] - 摩尔线程发布图形显卡驱动v320.130，实现对OpenGL 4.6的全面支持及对Vulkan 1.3的实验性支持 [15] 商业航天与卫星互联网 - 马斯克旗下卫星互联网业务“星链”全球活跃用户数量突破900万，覆盖155个国家和地区，最新的100万用户增量仅耗时47天 [2] - 长征十二号甲遥一运载火箭飞行试验任务获得基本成功，该火箭首创3.8米箭体直径，为未来重复使用火箭奠定基础 [12] - 蓝箭航天完成IPO辅导工作，其朱雀三号重复使用运载火箭于12月3日完成国内首次一级回收尝试 [18] 机器人及智能制造 - 银河通用获得百达精工超1000台具身智能机器人订单，双方将推动机器人在工业精密制造全流程的规模化落地 [10] - 震裕科技子公司计划分别投资不低于10亿元，建设人形机器人驱动总成核心部件及精密模组产业化项目 [17] - 亿纬锂能“亿纬钠能总部和金源机器人AI中心”项目动工，其中机器人AI中心规划建筑面积约5万平方米，覆盖机器人量产研发全流程 [10] 企业动态与资本运作 - 京东位于法国巴黎地区的仓库遭遇盗抢，公司称仓库已恢复正常运营，并否认此前媒体报道的损失超3700万欧元（约合5万台设备）的说法 [6] - 微信官方辟谣“点开直播链接就被盗号”的信息不属实，称微信账号有严格安全保护机制 [5] - 芯和半导体完成IPO辅导，该公司主营业务为提供全栈集成系统EDA解决方案 [19] 国际关系与政策 - 中方回应美国将大疆无人机列入“受管制清单”，表示坚决反对美方泛化国家安全概念和无理打压中国企业 [11]

卫星互联网

卫星互联网

马斯克薪酬案翻盘特斯拉“回来了”？

北京商报· 2025-12-24 10:37

公司股价表现与市值 - 12月22日美股盘中，特斯拉股价一度涨3.66%至每股498.82美元，刷新历史纪录，接近500美元关口 [1] - 截至当日收盘，股价涨幅收窄至1.56%，报收于每股488.73美元 [1] - 本月（12月）股价已累计上涨近15% [1] - 多重利好推动公司总市值达到1.63万亿美元 [1] 股价上涨驱动因素分析 - 股价近期飙升的部分原因包括公司首席执行官埃隆·马斯克薪酬案翻盘及FSD（全自动驾驶）拓圈 [1] - 分析师的乐观预期也在推动其股价不断上涨 [1] - 有分析认为，本月内约15%的股价涨幅，七成是“AI故事”重估，三成来自资金轮动 [3] - Robotaxi落地预期正推动其估值模型从“车企”向“软件+平台”模式切换，叠加空头回补和指数调仓等因素，形成短期情绪驱动行情 [3] 马斯克薪酬方案进展 - 美国特拉华州最高法院裁定，恢复马斯克原总值560亿美元的薪酬方案，认为下级法院取消该方案的决定太过极端 [2] - 该薪酬方案于2018年由特斯拉董事会和股东大会批准，当时总值约560亿美元，方案设立12项目标，马斯克每完成一项可获得相应的股票期权激励 [2] - 据路透社和德新社报道，原总值560亿美元的薪酬方案当前总值已涨至约1400亿美元 [2] - 今年11月，特斯拉股东以超过75%的赞成票通过了董事会为马斯克制定的最新薪酬方案，最高价值可达1万亿美元，但新方案设立的目标难度极高 [2] 自动驾驶（FSD/Robotaxi）业务进展与预期 - 特斯拉宣布，最新版的“FSD Supervised”功能能让特斯拉汽车“完全独立地”将车主送到目的地，自动寻找空位和泊车 [4] - 马斯克回应称，FSD功能“很有可能下个月就能”在阿联酋使用 [4] - 有分析表示，阿联酋是中东的“样板间”，一旦跑通，沙特、科威特会排队买单，特斯拉用软件溢价换市场份额，比卖车更快 [4] - 美国旧金山市发生大规模停电事故期间，依靠FSD系统驱动的特斯拉汽车均正常运行，未受影响 [4] - 特斯拉目前正在奥斯汀地区试点无安全员随车的Robotaxi服务，马斯克已确认奥斯汀无人驾驶Robotaxi测试正在进行中 [5] - 韦德布什预计，特斯拉将全面掌控全球约70%的自动驾驶市场份额 [5] 分析师观点与市场预测 - 美国投行韦德布什董事总经理、知名科技分析师丹·艾夫斯持续看好特斯拉，并相信这家电动汽车领导者将在2026年扩大其自动驾驶出租车的运营范围 [2] - 艾夫斯预测，特斯拉将于2026年于全球超过30个城市成功推出机器人出租车，并开始大规模生产无人驾驶出租车Cybercabs [3] - 艾夫斯预测，在基本预期下，特斯拉股价明年将上涨26% [3] - 有分析认为，全自动驾驶（FSD）渗透率每提升1%，估值模型就能多挤出百亿美元市值，当前股价谈不上泡沫，并非纯粹情绪炒作 [3] - 韦德布什认为，自动驾驶与机器人技术将成为特斯拉2026年的核心发力点，随着技术路线图的全面量产，这一转型将重新定义行业格局 [5]

机器人技术

机器人技术

港股异动 | 智驾概念股多数走高北京发放L3级高速公路自驾车辆专用号牌

智通财经· 2025-12-24 09:48

行业动态与政策进展 - 北京向北京出行汽车服务有限公司名下的3辆北汽极狐智能网联汽车发放了国内首批L3级高速公路自动驾驶车辆专用号牌[1] - 工信部此前公布了我国首批L3级有条件自动驾驶车型准入许可，涉及长安、北汽蓝谷两款车型[1] - L3级自动驾驶法规的正式落地被视为2026年行业发展的关键催化剂[1] 市场反应与公司表现 - 智驾概念股多数走高，浙江世宝股价上涨8.25%至5.12港元[1] - 佑驾创新股价上涨5.25%至14.23港元[1] - 黑芝麻智能股价上涨2.02%至19.68港元[1] - 禾赛-W股价上涨1.2%至176.7港元[1] 行业趋势与消费者行为 - 辅助驾驶功能已逐渐成为中国消费者购车决策的重要考量因素[1] - 部分车企已具备L3级智驾方案和L3级车型量产能力[1] - 北京发放专用号牌标志着我国自动驾驶车辆已由测试示范进展到正式量产，率先开启L3级自动驾驶时代[1]

L3级自动驾驶

L3级自动驾驶

A股盘前播报 | 英伟达(NVDA.US)放风春节前向中国客户交付H200芯片

智通财经网· 2025-12-24 09:39

人工智能芯片与算力 - 英伟达计划于2025年2月中旬（春节前）向中国客户交付其性能排名第二的AI芯片H200，计划动用库存履行首批订单，预计发货总量为5000至10000套芯片模组，相当于约4万至8万颗H200芯片，但能否顺利交付仍存在较大不确定性 [1] - 中芯国际对部分产能实施涨价，涨幅约为10%，分析认为AI云端算力基建快速发展打开云侧先进算力芯片代工需求 [10] - 2025算力互联网大会即将举行 [4] 自动驾驶与智能汽车 - 北京于12月23日向三辆智能网联汽车发放了国内首批L3级自动驾驶车辆专用号牌，标志着我国自动驾驶车辆已由测试示范进展到正式量产 [2] - 研究认为，随着特斯拉Robotaxi持续放量验证以及中国L3车型制度化落地，高阶自动驾驶产业拐点正加速到来 [2] - 高速公路服务区将新增万个充电枪，中信证券认为在政策、技术、市场合力推动下，国内充电基础设施有望迎来新一轮加速建设周期 [9] 大宗商品与贵金属市场 - 在地缘政治紧张及美联储降息预期推动下，现货黄金首次涨破4500美元/盎司关口，白银每盎司超71美元，伦铜突破12000美元/吨 [3] - 花旗称，在“牛市情景”下，如果美元走弱、美国降息进一步提升铜的吸引力，铜价有望触及每吨15000美元 [3] - 国金证券继续看好AI投资与全球制造业复苏共振的工业资源品 [6] 国家产业投资与政策 - 国家创投引导基金三大子基金（京津冀、长三角、粤港澳大湾区创业投资引导基金合伙企业）成立，合计出资超1200亿元，主要引导金融资本投早、投小、投长期、投硬科技 [4] - 信达证券认为春节前大概率仍有春季躁动行情，建议配置非银金融、电力设备、机械设备等 [7] 商业航天与高端制造 - 商业航天进入密集催化期，南海海域有火箭发射航行警告发布，中泰证券认为未来两年全球有望进入商业航天产业爆发期 [11] - 九丰能源与中国长征火箭有限公司签署相关协议 [14] - 宁波华翔子公司获得机器人关节订单 [14] 资本市场与公司动态 - 美股三大指数均连涨四日，标普500指数收于新高，大型科技股整体走强，英伟达涨超3%，博通涨逾2% [12] - 华新建材股东华新集团拟增持公司股份，总金额不低于2亿元 [14] - 昊海生科控股股东蒋伟被证监会罚款1462.92万元 [14] - 东方证券认为市场整体处于缩量整固期，上行力度明显不大，趋势性机会需等待积极信号 [8]

英伟达(US:NVDA)

高阶自动驾驶

高阶自动驾驶

双SOTA！GenieDrive：物理一致的自动驾驶世界模型（港大&华为诺亚）

自动驾驶之心· 2025-12-24 08:58

文章核心观点 - 香港大学、华为及华中科技大学的研究团队提出了一种名为GenieDrive的新型自动驾驶世界模型框架[2] - 该框架的核心创新在于采用“先生成4D占据、再生成视频”的两阶段路径，以4D Occupancy作为中间表示来提升生成视频的物理一致性与可控性[2][4] - 该方法在模型效率与生成质量上均取得显著突破，参数仅3.47M，推理速度达41 FPS，并在关键性能指标上大幅超越现有方法[5][7] 研究背景与挑战 - 当前自动驾驶世界模型面临两大挑战：一是物理一致性不足，现有视频生成模型难以产生符合真实物理规律的响应；二是高维表示（如4D Occupancy）建模困难[8] 技术架构与创新点 - **两阶段框架**：第一阶段构建4D Occupancy世界模型，第二阶段进行Occupancy引导的视频生成[10] - **以4D Occupancy作为中间世界状态**：将显式物理信息注入框架，为视频生成提供可靠物理约束[11] - **Tri-plane VAE高效压缩**：仅使用现有方法58%的潜在表示数量，即实现高质量的占据重建，显著降低计算与存储开销[4][11] - **控制感知与端到端训练**：通过Mutual Control Attention显式建模驾驶控制对占据演化的影响，并采用端到端联合训练提升预测精度[4][11] - **多视角一致的视频生成**：引入归一化多视角注意力机制，在4D Occupancy引导下提升多视角视频生成质量与一致性[11] - **轻量级设计**：模型整体参数量仅为3.47M[5][7] 实验结果与分析 - **4D占据预测性能**：与此前最新方法I²-World相比，mIoU指标提升7.2%，IoU指标提升4%[13] - **推理效率**：模型推理速度达到41 FPS[5][13] - **视频生成性能**：模型支持生成长达241帧（约20秒）的多视角自动驾驶视频[15] - **生成质量**：在视频生成任务上，将FVD（Frechet Video Distance）指标降低了20.7%[5][7] - **模型规模**：训练了S（8帧/0.7秒）、M（37帧/3秒）、L（81帧/7秒）三种规模的模型，并通过滚动预测扩展生成长视频[15] 主要贡献与价值 - 提出了一条“先生成4D占据、再生成视频”的全新自动驾驶世界模型研究路径[25] - 实现了高度可控、多视角一致且符合物理规律的自动驾驶视频生成[7][23] - 支持通过直接编辑4D占据信息来高效编辑生成视频，这在自动驾驶难例数据生成中具有重要价值[20] - 该框架有望推动自动驾驶闭环评测与仿真技术的发展[23]

自动驾驶世界模型

自动驾驶世界模型