自动驾驶
搜索文档
Dream4Drive:一个能够提升下游感知性能的世界模型生成框架
自动驾驶之心· 2025-10-29 08:04
文章核心观点 - 提出了一种名为Dream4Drive的全新3D感知合成数据生成框架,旨在解决现有自动驾驶世界模型在评估合成数据有效性时存在的公平性问题,并显著提升下游感知任务的性能 [1][5][6] - 该框架通过将输入视频分解为3D感知引导图、渲染3D资产并微调世界模型,能够灵活生成大规模多视角极端场景视频,仅需添加不足2%的合成样本即可在相同训练轮次下超越纯真实数据训练的效果 [1][6][27] - 研究构建了大规模3D资产数据集DriveObj3D以支持多样化编辑,并通过大量实验证明该方法在不同训练轮次和分辨率下均能有效提升3D目标检测与跟踪等关键感知任务的性能 [2][27][29][30] 背景回顾 - 自动驾驶感知模型的性能高度依赖大规模人工标注数据,但收集长尾场景数据耗时费力,现有基于扩散模型或ControlNet的世界模型对单个目标的位姿和外观控制能力有限,难以生成多样化合成数据 [4] - 现有合成数据增强方法通常采用“合成数据预训练+真实数据微调”的策略,导致总训练轮次是基准模型的两倍,在训练轮次相同时,混合数据集相比纯真实数据训练并无优势,甚至性能更差 [5] - 视频编辑方法和基于NeRF/3DGS的重建类方法分别存在单视角局限性以及伪影、渲染不完整和视觉不一致等问题,限制了其在环视BEV感知任务中的应用 [4] Dream4Drive算法详解 - 框架核心流程包括将输入视频分解为深度图、法向量图、边缘图等3D感知引导图,将3D资产渲染到引导图上,并通过微调世界模型生成编辑后的多视角真实感视频 [5][8][16] - 采用密集型3D感知引导图而非稀疏空间控制(如BEV地图),结合多条件融合适配器和空间视角注意力机制,确保实例级空间对齐、时间一致性和跨视角连贯性 [8][19] - 训练目标结合了简化的扩散损失、前景掩码损失和LPIPS损失,无需昂贵3D标注,仅依赖RGB视频及可通过现成工具生成的引导图,大幅降低训练成本 [20][21] DriveObj3D资产 - 为支持多样化3D感知视频编辑,设计了一套高效3D资产生成流程,包括使用GroundedSAM进行目标分割、Qwen-Image生成多视角一致图像、Hunyuan3D进行3D网格重建 [22][25] - 构建了大规模3D资产数据集DriveObj3D,涵盖驾驶场景典型类别,其资产生成方法相比Text-to-3D和单视角方法能生成更完整、高保真且风格一致的资产 [9][25] 实验结果分析 - 在下游3D检测任务中,仅添加420个合成样本(<2%真实数据量),在1倍训练轮次下mAP从34.5提升至36.1,NDS从46.9提升至47.8;在2倍轮次下mAP从38.4提升至38.7,NDS从50.4提升至50.6 [27][28] - 在下游跟踪任务中,同等条件下AMOTA从30.1提升至31.2(1倍轮次)以及从34.1提升至34.4(2倍轮次)[27][28] - 在高分辨率(512×768)设置下,性能提升更为显著,mAP提升4.6个百分点(相对提升12.7%),NDS提升4.1个百分点(相对提升8.6%)[29] 消融实验 - 插入位置影响性能,左侧插入优于右侧(mAP提升0.4个百分点,NDS提升0.9个百分点),远距离插入效果优于近距离,因近距离插入可能造成严重遮挡 [37][38] - 3D资产来源影响合成数据质量,使用与数据集风格一致的资产(本文方法)相比Trellis或Hunyuan3D能产生更优的下游任务性能(mAP 40.7 vs 39.8/40.2)[39][41] - 与直接投影的“朴素插入”方法相比,Dream4Drive的生成式方法因能合成阴影、反射等真实感细节,在各项指标上均表现更优 [33][35]
给自动驾驶业内新人的一些建议
自动驾驶之心· 2025-10-29 08:04
社区概况与定位 - 社区名称为“自动驾驶之心知识星球”,是一个集视频、图文、学习路线、问答、求职交流为一体的综合类自动驾驶社区 [1][3] - 社区已运营三年,当前成员规模超过4000人,并计划在未来2年内发展到近万人规模 [1][3] - 社区旨在为初学者和进阶者提供技术分享与交流平台,解决行业壁垒高、试错成本高、缺乏完整学习体系等问题 [1][3] 社区资源与技术覆盖 - 社区内部梳理了超过40个自动驾驶技术方向的学习路线,涵盖感知、规划控制、仿真、端到端驾驶等多个领域 [5][6][14][15] - 资源形式包括近40个开源项目汇总、近60个自动驾驶相关数据集、行业主流仿真平台以及各类技术学习路线 [14] - 提供原创直播课程,内容覆盖感知融合、多传感器标定、SLAM与高精地图、决策规划、数据工程、自动驾驶仿真及端到端与大模型技术等9大系列 [9] 成员构成与合作伙伴 - 社区成员来自上海交大、北京大学、CMU、清华大学等国内外知名高校实验室,以及蔚小理、地平线、华为、英伟达、百度等自动驾驶头部公司 [14] - 社区与多家自动驾驶公司建立了岗位内推机制,可帮助成员简历直达心仪公司 [10] - 社区定期邀请学术界与工业界大佬进行直播分享,目前已举办超过一百场专业技术直播 [84] 具体技术内容与问答 - 社区日常讨论问题包括端到端自动驾驶入门、VLA学习路线、多模态大模型数据集、多传感器融合就业前景、3DGS与闭环仿真结合等前沿话题 [7][18] - 技术资料库详细梳理了3D目标检测、BEV感知、扩散模型、世界模型、视觉语言模型、自动驾驶VLA等热点领域的最新综述、方法汇总与开源数据集 [20][37][39][43][45] - 提供“自动驾驶100问”系列实战资料,涵盖TensorRT模型部署、毫米波雷达融合、车道线检测、规划控制、BEV感知、相机标定等工程化主题 [8]
英伟达市值逼近5万亿美元,黄仁勋发声
第一财经· 2025-10-29 08:00
公司股价表现与市场催化剂 - 英伟达股价于当地时间10月28日收盘上涨4.9%,盘中一度涨逾6%,市值报4.89万亿美元,创下历史新高 [3] - 公司股价今年以来累计涨幅接近50%,延续了自7月突破4万亿美元市值以来的强劲扩张势头 [3] - 在华盛顿特区举行的GTC大会是公司新一轮股价上涨的催化剂,凸显公司正加速从“AI芯片制造商”向“计算生态系统平台”转型 [3] 跨行业合作与技术发布 - 公司与制药巨头礼来合作,共同建设被称为“医药领域最强大的超级计算机”,以支持分子建模与药物研发 [5] - 在通信领域,公司与诺基亚签署战略协议,共同开发6G人工智能平台,并向诺基亚投资10亿美元,持股约2.9% [6] - 公司与T-Mobile美国合作推动AI-RAN技术落地,T-Mobile预计2026年启动6G试验,戴尔将为该计划提供PowerEdge服务器支持 [6] - 公司发布新一代自动驾驶计算平台Hyperion 10,并宣布将与优步合作构建Robotaxi自动驾驶出行网络 [6] 量子计算与AI超级计算布局 - 公司在GTC大会上正式发布NVQLink互联系统,该技术可在量子处理器与AI超级计算机之间实现高速通信 [8] - 公司将与美国能源部合作,在阿贡和洛斯阿拉莫斯等国家实验室建设七台新一代AI超级计算机 [8] - 能源部最大的AI系统Solstice将配备10万个Blackwell GPU,另一套Equinox系统包含1万个GPU,预计2026年投入使用 [8] - 公司将在Digital Realty位于弗吉尼亚州的园区内部署AI Factory研究中心,作为其Omniverse DSX多代AI架构的重要节点 [9] 管理层观点与行业展望 - 公司首席执行官黄仁勋表示,AI产业正进入从试验到成熟的关键阶段,客户愿意为模型付费是行业进入良性循环的标志 [11] - 公司预计Blackwell芯片和Rubin模型将在未来五个季度带来约5000亿美元的收入 [11] - AI的发展正推动各行各业的再工业化,算力正在成为新的生产要素,公司的使命是构建支撑这一转变的基础设施 [11] - 市场普遍认为,公司在量子计算、通信网络和自动驾驶领域的延伸布局,将进一步扩大其市场边界 [12]
一文读懂英伟达GTC大会:从GPU到AI工厂,黄仁勋如何重塑美国科技霸权
36氪· 2025-10-29 07:58
核心观点 - 英伟达在GTC华盛顿特区技术峰会上勾勒了帮助美国在AI基础设施和创新领域保持领导地位的宏伟蓝图,核心战略是通过“极致协同设计”推动计算架构、通信技术、量子计算和本土制造等多领域的范式转移 [1] 计算架构范式转移 - 传统CPU性能增长因登纳德缩放定律终结而陷入停滞,公司以并行计算、GPU和加速计算架构作为解决方案 [4] - 公司构建了CUDA-X全栈加速库软件生态系统,覆盖深度学习、数据科学、决策优化、计算光刻及量子计算等关键领域,被视为公司最珍贵的宝藏和技术核心 [4] AI原生6G技术栈ARC-Pro - 公司推出以美国技术为核心的AI原生6G无线技术栈NVIDIA ARC,基于Aerial平台构建,融合Grace CPU、Blackwell GPU及先进网络组件 [5][7] - 公司与诺基亚达成深度战略合作,诺基亚将在未来基站系统中集成ARC解决方案,公司以每股6.01欧元认购1.664亿股诺基亚新股,投资总额达10亿美元 [7] 量子计算互联技术NVQLink - 公司推出量子-GPU互联技术NVQLink,使量子处理单元能实时调用CUDA-Q框架,将通信延迟降至约4微秒 [10] - 公司的量子计算生态系统合作伙伴包括17家领先企业和多个美国能源部实验室,几乎所有的美国能源部下属实验室都参与合作 [10] 加速美国科研进程 - 公司与美国能源部达成战略合作,将共同建设七台新一代超级计算机 [10] - 将在阿贡国家实验室打造包含Solstice系统(部署10万颗Blackwell GPU)和Equinox系统(配备1万颗Blackwell GPU,提供2,200 EFLOPS AI算力)的超级计算网络 [12] 本土制造战略 - Blackwell GPU已在美国亚利桑那州实现规模化生产,基于该芯片的整机系统也将在美国完成组装,标志着制造环节从依赖台积电转向美国本土供应链 [13] - 过去四个季度公司已出货600万颗Blackwell GPU,预计Blackwell与下一代Rubin芯片的总销售额将达到5000亿美元规模 [13] AI工厂革命 - 公司提出AI从“工具”转变为“生产力主体”,催生全新的计算范式、职业形态与产业格局 [14] - “AI工厂”是专门为海量token生成、传输与服务构建的全新综合计算平台,通过重新定义计算机形态(扩展至整个机柜)和创新AI以太网技术Spectrum-X实现系统间无损横向扩展 [14] Omniverse DSX蓝图 - 公司发布Omniverse DSX,是一套完整覆盖100兆瓦至数千兆瓦级AI工厂设计与运营的综合解决方案 [15] - 提供DSX Boost(内部能效优化,可降低约30%能耗或提升30%GPU密度)和DSX Flex(外部能源整合,可激活美国电网中约100吉瓦闲置容量)两个配置框架 [18] - 该架构支持当前Blackwell平台并兼容下一代Vera Rubin等未来产品 [19] 开放生态与产业融合 - 公司本年度已向开发者社区贡献了数百个高质量开放模型与数据集,强调开源模型与开放协作是创新基石 [20][21] - 已构建覆盖关键领域的开放模型体系,包括Nemotron(智能体推理)、Cosmos(合成数据与物理AI)、Isaac GR00T(机器人技能学习)和Clara(生物医学研究) [21] - 宣布与CrowdStrike共建新一代网络安全体系,并与Palantir达成深度技术整合,将加速计算架构与开源模型融入其数据平台 [22] 物理智能应用 - “物理智能”通过机器人与智能系统重塑制造、物流及基础设施,推动美国再工业化进程 [24] - 合作伙伴案例包括:富士康运用Omniverse仿真休斯敦新工厂、卡特彼勒集成数字孪生、Figure AI人形机器人、强生优化生产研发、迪士尼训练交互式机器人 [24] 自动驾驶新纪元 - 公司与Uber共同构建自动驾驶出行平台,计划自2027年起规模化部署约10万辆自动驾驶车辆 [26] - 项目将依托新一代DRIVE AGX Hyperion 10平台(配备两颗Thor处理器,每颗约2000 FP4 TFLOPS,含14个摄像头等传感器套件) [26] - 该平台还获得Lucid Motors、梅赛德斯-奔驰以及Stellantis集团等汽车制造巨头的采用 [26]
英伟达市值逼近5万亿美元 黄仁勋称AI产业进入“良性循环”
第一财经· 2025-10-29 07:54
公司股价表现 - 英伟达股价于10月28日强势上扬,盘中一度涨逾6%,收盘上涨4.9%,市值触及4.94万亿美元后报4.89万亿美元,创下历史新高 [2] - 公司股价今年以来累计涨幅接近50%,扩张势头延续自7月突破4万亿美元以来的强劲行情 [2] - 受GTC大会利好推动,英伟达股价周二创下自6月以来最大单日涨幅 [6] 战略转型与行业地位 - 公司在GTC大会上密集发布技术革新与产业合作计划,显示其正加速从“AI芯片制造商”向“计算生态系统平台”转型 [2] - 多项公告显示英伟达有能力将业务延伸到核心数据中心客户之外,可能为其打开新的增长空间 [3] - 本届GTC大会凸显了英伟达在AI生态体系中的核心地位,公司正构建贯穿整个AI产业链的闭环 [6] - 市场普遍认为,英伟达在量子计算、通信网络和自动驾驶领域的延伸布局,将进一步扩大其市场边界 [6] 关键业务合作与拓展 - 英伟达与制药巨头礼来合作,共同建设被称为“医药领域最强大的超级计算机”,以支持分子建模与药物研发 [3] - 公司与诺基亚签署战略协议,共同开发6G人工智能平台,并向诺基亚投资10亿美元,持股约2.9% [3] - 英伟达与T-Mobile美国合作推动AI-RAN技术落地,T-Mobile预计2026年启动6G试验 [3] - 公司发布新一代自动驾驶计算平台Hyperion 10,并宣布与优步合作构建Robotaxi自动驾驶出行网络 [3] 技术产品发布与创新 - 黄仁勋正式发布NVQLink互联系统,该技术可在量子处理器与AI超级计算机之间实现高速通信,是首个能够支撑大规模量子纠错与并行运算的互联方案 [4] - 量子计算被视为下一代计算架构的关键方向,能够在分子模拟、气候建模和金融定价等领域解决传统计算机难以应对的复杂问题 [4] - 公司宣布将与美国能源部合作,在阿贡和洛斯阿拉莫斯等国家实验室建设七台新一代AI超级计算机 [5] - 能源部最大AI系统Solstice将配备10万个Blackwell GPU,另一套Equinox系统包含1万个GPU,预计2026年投入使用 [5] - 洛斯阿拉莫斯实验室计划采用英伟达Vera Rubin平台与Quantum-X800网络架构建设下一代Mission与Vision系统 [5] - 英伟达将在Digital Realty位于弗吉尼亚州的园区内部署AI Factory研究中心,作为其Omniverse DSX多代AI架构的重要节点 [5] 行业前景与财务预期 - 黄仁勋表示AI产业正进入从试验到成熟的关键阶段,客户愿意为模型付费是行业进入良性循环的标志 [6] - AI的发展正推动各行各业的再工业化,算力正在成为新的生产要素 [6] - 公司预计Blackwell芯片和Rubin模型将在未来五个季度带来约5000亿美元的收入 [6] - 随着全球科技公司持续加码AI投资,英伟达在高性能计算中的主导地位预计仍将强化 [6]
自动驾驶的“安卓时刻”来了,英伟达也盯上了Robotaxi肥肉?
36氪· 2025-10-29 07:40
图源:英伟达 回顾当前的 Robotaxi 生态,几乎被 "封闭全栈模式" 垄断。 无论是 Waymo 的自研芯片+全栈算法+自有车队,还是特斯拉的车路协同轻量化+数据闭环,亦或是百度的Apollo平台+ 企合作运营,本质都是将核心技术、 数据、场景牢牢攥在自己手里。 这种模式下,一家车企要入局 Robotaxi,不仅要投入数十亿研发算法,还要搞定芯片适配、路测数据积累、运营资质申请,门槛之高让多数玩家望而却步。 重重困难下,英伟达此时布局Robotaxi,该作何理解? 芯片霸主的Robotaxi野心:打造行业的安卓 全球芯片巨头英伟达,正从自动驾驶的卖水人变身参赛者。 据 36 氪消息,英伟达内部正在孵化 Robotaxi 项目,其核心逻辑并非下场运营,而是要推出一套 "Robotaxi 技术样本",最终构建类似 "安卓系统" 的开放生 态。 要理解英伟达的 Robotaxi 布局,首先要搞懂一个核心问题:它要做的 "安卓式生态",到底是什么? 在消费电子领域,安卓系统的成功本质是底层标准化+上层个性化:谷歌提供统一的操作系统、硬件驱动和基础 API,手机厂商只需聚焦外观设计、功能优 化和品牌运营。 这种模 ...
特斯拉董事长呼吁批准马斯克万亿薪酬计划,鸿蒙智行全系累计交付突破100万辆 | 汽车早参
每日经济新闻· 2025-10-29 06:32
每经记者|董天意 实习生 张艺彤 每经编辑|余婷婷 | 2025年10月29日 星期三 | 10月28日,深圳市商务局发布公告称,根据《深圳市超长期特别国债资金加力扩围支持消费品以旧换新 实施方案(2025年)》,补贴资金总额控制、先到先得、用完即止。鉴于2025年汽车置换更新补贴资金 已达到预算上限,经研究,2025年深圳市汽车置换更新补贴政策于10月28日资格发放完毕后停止实施。 10月27日深夜,四川省商务厅宣布实施汽车置换更新和报废更新补贴资格调控,原则上隔周星期五实施 公证摇号,首轮公证摇号时间为10月31日10:00,后期轮次具体时间视国家有关要求作相应调整。摇号 中签资格实行总量控制、用完即止。 据新华社10月28日消息,美国特斯拉公司董事长萝宾·德诺姆致信股东警告称,如果公司首席执行官 (CEO)埃隆·马斯克的10年期薪酬计划未获批准,马斯克可能离职。依据薪酬计划,马斯克未来有望 获得约1万亿美元市值的特斯拉股票作为酬劳。 特斯拉9月5日公布了为马斯克定制的10年期薪酬计划。该计划为特斯拉今后发展设定充满挑战的分阶段 目标,马斯克若能完成全部12项目标,有望获得12%的特斯拉股票。届时,特斯拉 ...
英伟达和Uber达成合作 加速全球L4自动驾驶生态扩张
新浪科技· 2025-10-29 02:29
责任编辑:丁文武 新浪科技讯 10月29日凌晨消息,英伟达CEO黄仁勋在GTC大会期间宣布,和Uber达成合作,将拓展全 球L4自动驾驶出行网络。此次合作将基于英伟达自动驾驶平台 NVIDIA DRIVE AGX Hyperion 10、专为 L4自动驾驶打造的 NVIDIA DRIVE AV软件,以及 NVIDIA Cosmos世界基础模型开发平台,以加速 Uber自动驾驶生态的扩张。 英伟达将支持Uber从2027年起逐步扩展其全球自动驾驶出租车与送货车队,目标规模达到10万辆。英伟 达和 Uber 还正在合作开发一个由NVIDIA Cosmos世界基础模型开发平台加速的数据工厂,用于整理和 处理自动驾驶汽车开发所需的数据。 ...
自动驾驶双雄的资本赛跑
北京商报· 2025-10-29 00:40
从纳斯达克到港交所,小马智行与文远知行的资本路径惊人的相似——不仅同步启动港股招股,连挂牌 时间都定在11月6日。10月28日,两家自动驾驶公司同时开启香港招股程序,若顺利挂牌,将共同形 成"美股+港股"双重上市格局。 截至10月27日美股收盘,小马智行报19.68美元/股,市值75.83亿美元;文远知行报11.16美元/股,市值 34.91亿美元。港股发售价同样有差距:小马智行最高180港元/股,文远知行上限35港元/股。跨越两大 交易所,自动驾驶行业仍未迎来盈利拐点。双重上市未必能直接改善亏损,自动驾驶市场缺乏的不只是 资金,还有耐心和信心。 同一天 中国自动驾驶行业的发展历程中,小马智行和文远知行就像两条平行线,既相互竞争又彼此映照。这两 家公司的创始人也均与百度自动驾驶有关联,堪称"师出同门"。 10月28日一早,港交所几乎同时公开了文远知行和小马智行的全球发售计划,根据公告,双方均将在11 月6日挂牌上市。 不止这两个环节重合。10月14日,文远知行和小马智行港股上市申请同日获得中国证监会备案。两家通 过港交所聆讯的时间只差两天,10月17日小马智行"先走一步",两天后文远知行紧随其后。 王超进一步 ...
特斯拉官方利好,来了!
Robot猎场备忘录· 2025-10-29 00:14
温馨提示 : 点击下方图片,查看运营团队最新原创报告(共235页) 说明: 欢迎约稿、刊例合作、行业交流 , 行业交流记得先加入 "机器人头条"知识星球 ,后添加( 微信号:lietou100w )微信; 若有侵权、改稿请联系编辑运营(微信:li_sir_2020); —— 正文: 特斯拉三季度财报后,特斯拉首个官方利好,来了! 10月22日(美东时间),马斯克在财报电话交流会上, 大谈AI、 Robotaxi和 机器人,表示:特斯拉正处于将人工智能(AI)带入现实世界的关键"拐点";并表示, 特 斯拉在现实世界AI领域处于绝对领先地位,智能密度行业最高。同时表示, 我们为汽车开发的现实世界智能,大部分都可以转移到Optimus上, 我们相信通过Optimus 和自动驾驶,你实际上可以创造一个没有贫困的世界,最终实现 "可持续的富足"。 2025年世界计算机视觉顶会ICCV上,特斯拉神经网络「世界模型器」(World Simulator)首次亮相,特斯拉自动驾驶副总裁Ashok Elluswamy亲自讲解,马斯克的终 极设想,正在成形。 值的注意的是,正如马斯克财报中所说,该「世界模型器」同样适用于特斯拉Op ...