自动驾驶之心

搜索文档
一汽正式收购大疆卓驭!落下智能驾驶功课的车企们,正在加速补作业...
自动驾驶之心· 2025-09-23 11:44
公司收购与股权变更 - 一汽正式成为大疆卓驭第一大股东 国家市场监管总局于9月22日对股权收购案进行公示 [1] 公司发展历程与业务布局 - 卓驭前身为大疆车载事业部 2016年建立 2023年拆分独立运营 2024年启用"卓驭"品牌 [3] - 公司累计融资超25亿元 投资方包括比亚迪、上汽、国投招商、基石资本、光远资本等 [3] - 以低算力高性价比方案起家 近年拓展至中高端算力平台 推出激光雷达方案及舱驾一体技术 [3] - 上海车展展示补盲激光雷达知周、激目2.0等硬件产品 以及基于NVIDIA DRIVE Thor平台的VLA大模型和高通SA8775P平台舱驾一体方案 [3] 市场前景与战略合作 - 预计2025年将有200万台车型搭载大疆车载智驾系统 3-5年内合作量产车型达500万台量级 [5] - 一汽通过收购获取卓驭智驾技术优势 提升产品竞争力 加速智驾升级和智能化转型 [5] - 一汽入股被视为对卓驭技术路线的肯定 [6] 行业地位与发展路径 - 卓驭发展历程覆盖自动驾驶黄金十年 [7] - 作为大疆孵化企业 通过引入一汽作为股东 走出区别于华为的差异化发展路径 [8] - 标志自动驾驶行业新格局开启 [9]
急需一台性价比高的3D激光扫描仪!
自动驾驶之心· 2025-09-23 07:34
最强性价比3D激光扫描仪 | 雄厚背景&项目验证 | | --- | 面向工业场景和教研场景的 超高性价比3D扫描仪来了!GeoScan S1是国内目前最强性价比实景三维激光扫描 仪,轻量化设计,一键启动,便可拥有高效实用的三维解决方案。以多模态传感器融合算法为核心,实现厘米级 精度的三维场景实时重构。可广泛用于多种作业领域。 每秒20万级点云成图,70米测量距离,360°全域覆盖,支持20万平米以上的大场景,扫描可选配3D高斯数据采 集模块,实现高保真实景还原。支持跨平台集成,配备高带宽网口及双USB 3.0接口,为科研实验提供灵活扩展 空间。降低开发门槛,助力开发者快速掌握研发能力,开启更多可能。 同济大学刘春教授团队和西北工业大学产业化团队携手合作 多年科研和行业积累,上百个项目验证 GeoScan S1设备自带手持Ubuntu系统和多种传感器设备,手柄集成了电源,可通过D-TAP转XT30母头输出至 GeoScan S1设备本体,给雷达、摄像头以及主控板提供电源。 基础版重建效果一览! 使用门槛低 :操作简单直观,一键启动即可 执行扫描作业 扫描结果导出即用 :无需复杂部署和繁琐处理,扫 描结果导出即 ...
三维重建综述:从多视角几何到 NeRF 与 3DGS 的演进
自动驾驶之心· 2025-09-23 07:34
三维重建技术演进综述 - 三维重建是计算机视觉与图形学的交叉核心,作为虚拟现实、增强现实、自动驾驶、数字孪生等前沿应用的数字底座 [5] - 以神经辐射场(NeRF)和三维高斯抛雪球(3DGS)为代表的新视角合成技术,使重建质量、速度、动态适应性同时跃升 [5] - 技术演进从传统多视角几何(SfM→MVS)到NeRF与3DGS,为数字孪生、智慧城市、元宇宙等领域提供技术演进全景图 [5] 应用需求驱动技术革新 - 城市级数字孪生需求公里级范围、厘米级精度、分钟级更新 [6] - 自动驾驶仿真需求动态交通流、实时语义、可编辑车道 [6] - AR/VR社交需求轻终端、大于90 FPS、照片级真实感 [6] - 工业数字工厂需求弱纹理、反光、复杂拓扑完整建模 [6] - 传统先几何后纹理管线无法满足新需求,NeRF与3DGS通过可微渲染统一学习几何-纹理-光照,实现从离线静态到实时动态的突破 [6] 传统多视角几何重建(SfM→MVS) - 理论基石包括对极几何x'^T F x = 0、三角测量X = argmin(∑‖π(P_i,X)−x_i‖^2)和束调整min ∑‖x−π(P,X)‖^2 + λ‖P−P_0‖^2 [9][10] - 成熟工具链包括COLMAP(学术最常用,CPU优化)、OpenMVG(模块化,适合算法研究)、Agisoft Metashape(商业级,支持无人机影像)和ContextCapture(Bentley城市级解决方案) [11] - 存在五大痛点:数据饥渴需大于70%航向重叠加60%旁向重叠、弱纹理空洞(玻璃、白墙、水面、天空)、光照敏感导致阴阳面色差和纹理接缝明显、动态失效导致行人车辆重影/鬼影、编辑困难改一棵树要重跑全流程 [13][15] NeRF隐式神经辐射场(2020-2024) - 基础框架将场景建模为连续5D函数F_Θ:(x,y,z,θ,φ)→(c,σ),通过体渲染积分得到像素颜色 [13][14] - 质量提升路线包括Mip-NeRF(锥体追踪+集成位置编码解决锯齿混叠,训练时间×2)、NeRF-W(外观嵌入+可变光照解决天气/曝光变化,推理需调latent)、NeRF++(反向球面背景+双层场景解决远景退化,参数量+30%)、NeRFLiX(退化模拟器+视角混合解决伪影噪声,需合成数据预训练)、BAD-NeRF(运动模糊物理模型解决模糊输入鲁棒,需已知模糊核)、UHDNeRF(隐式体+稀疏点云高频实现8K超高清,显存增加) [17] - 效率优化路线包括InstantNGP(多分辨率哈希编码实现5秒至1分钟训练时间、5 FPS渲染、1.2 GB显存)、TensoRF(CP分解+低秩近似实现10分钟训练、10 FPS、300 MB显存)、NSVF(稀疏体素八叉树实现30分钟训练、15 FPS、500 MB显存)、Zip-NeRF(抗锯齿网格采样实现20分钟训练、20 FPS、400 MB显存)、Lightning NeRF(点云先验初始化实现8分钟训练、10 FPS、600 MB显存) [18] - 稀疏视角合成(小于10张图)方法包括FreeNeRF(频率正则+遮挡正则实现DTU 3-view PSNR 19.92,零额外开销)、FlipNeRF(反射射线过滤实现PSNR 19.55,减少漂浮物)、MixNeRF(混合密度+深度估计实现PSNR 18.95,提升几何)、HG3-NeRF(几何-语义-光度分层实现PSNR 19.37,需语义标签) [20] - 动态场景(视频输入)方法包括Deformable-NeRF(变形场Ψ(x,t)实现D-NeRF PSNR 29.8,正则化扭曲)、NSFF(场景流+静态/动态分解实现PSNR 31.5,可解释运动)、DNeRF(时间编码γ(t)实现PSNR 29.6,无需额外mask)、NeRFPlayer(静态+变形+新区域实现PSNR 30.2,流式播放)、Tensor4D(4D张量分解实现PSNR 31.0,内存下降50%) [21] 3DGS三维高斯溅射(2023-2025) - 基础公式将场景表示为3D高斯集合G={μ_i,Σ_i,α_i,SH_i}_{i=1}^M,投影到图像平面后按深度排序做α-混合C=∑_{i∈N}c_iα'_i∏_{j=1}^{i-1}(1-α'_j) [22][23] - 渲染质量优化方法包括Mip-Splatting(3D/2D Mip滤波实现抗锯齿,LPIPS下降10%)、Scaffold-GS(锚点生长-剪枝实现内存下降79%,覆盖提升)、GaussianPro(渐进传播+深度一致实现低纹理PSNR提升1.7 dB)、GSDF(高斯+SDF双分支实现几何误差下降30%)、SuperGS(粗到细+梯度引导分裂实现4K超分实时) [25] - MipNeRF360对比显示3DGS的PSNR 27.21、SSIM 0.815、LPIPS 0.214、FPS 134、内存734 MB;GSDF的PSNR 29.38、SSIM 0.865、LPIPS 0.185;Scaffold-GS的PSNR 28.84、SSIM 0.848、LPIPS 0.220、FPS 102、内存156 MB;SuperGS的PSNR 29.44、SSIM 0.865、LPIPS 0.130、FPS 47、内存123 MB [26] - 效率再升级方法包括LightGaussian(蒸馏+量化+伪视角实现15倍压缩,200 FPS)、CompGS(K-means+游程编码实现存储下降80%)、EAGLES(轻量化编码实现显存下降70%)、SuGaR(表面网格提取实现编辑友好,Poisson重建)、Distwar(寄存器级并行实现GPU原子操作下降60%) [27][28] - 稀疏视角重建(小于10张图)方法包括FSGS(单目深度+邻域上采样实现200 FPS,需预训练DepthNet)、SparseGS(扩散模型补全实现实时360°,生成伪标签)、LM-Gaussian(大模型视觉先验实现迭代细化,视频扩散)、MCGS(多视角一致性修剪实现内存下降50%,渐进剪枝) [29] - 动态重建(视频)方法包括Deformable 3D-GS(变形场实现D-NeRF PSNR 39.51,时序正则)、4D-GS(神经体素+MLP实现PSNR 34.05,分解4D特征)、Gaussian-Flow(双域变形实现PSNR 34.27,显式运动向量)、DN-4DGS(去噪网络实现PSNR 25.59,时空聚合) [30] 三代技术横向对比 - 核心表征:SfM/MVS为点云+Mesh,NeRF为隐式σ(x)+c(x),3DGS为显式高斯集合 [31] - 几何精度:SfM/MVS★★★★☆,NeRF★★★☆☆,3DGS★★★☆☆ [31] - 照片真实感:SfM/MVS★★☆☆☆,NeRF★★★★★,3DGS★★★★☆ [31] - 训练时间:SfM/MVS为小时级,NeRF为小时至天级,3DGS为分钟级 [31] - 渲染FPS:SfM/MVS小于1,NeRF小于1,3DGS为50-300 [31] - 动态扩展:SfM/MVS不支持,NeRF需变形场,3DGS支持时序高斯 [31] - 编辑性:SfM/MVS极难,NeRF隐式不可见,3DGS支持移动/删除/增改 [31] - 硬件门槛:SfM/MVS只需CPU,NeRF需8个高端GPU,3DGS只需1个消费GPU [31] - 代表落地:SfM/MVS用于测绘、文保,NeRF用于影视、直播,3DGS用于AR/VR、自动驾驶 [32] 未来5年技术雷达 - 混合表征:NeRF+3DGS+SDF统一框架,光滑表面用SDF,高频细节用高斯,空洞用NeRF补全 [33] - 端侧实时:INT4量化+TensorRT/ONNX实现手机30 FPS重建 [33] - 生成式重建:Diffusion先验+3DGS实现单图/文本生成可驱动3D资产 [33] - 物理-语义联合:引入光照模型、重力、语义标签实现一键可编辑城市场景 [33] - 多模态融合:LiDAR深度、事件相机、IMU、Thermal同步实现SfM-free鲁棒重建 [33] - 三维重建将走向人人可用、处处实时的普适计算时代,让每部手机、每台车、每副AR眼镜都拥有实时数字化的瑞士军刀 [34]
放榜了!NeurIPS 2025论文汇总(自动驾驶/大模型/具身/RL等)
自动驾驶之心· 2025-09-23 07:34
自动驾驶 - FutureSightDrive提出时空思维链技术用于自动驾驶视觉思考[2] - AutoVLA开发端到端自动驾驶视觉-语言-动作模型 具备自适应推理和强化微调能力[4] - 阿里与西交联合研发FSDrive系统 论文编号2505.17685[6] - UCLA团队推出AutoVLA框架 论文编号2506.13757[7] - 清华AIR与北航等机构开发双边网格驾驶场景高斯泼溅技术[13] 视觉感知推理 - OmniSegmentor构建多模态语义分割灵活学习框架[16] - 水牛城大学与中科院研发YOLOv12注意力中心实时目标检测器 论文编号2506.05280[18] - 南开大学程明明团队提出DFormer模型 论文编号2509.15096[19] - PixFoundation 2.0研究视频多模态大模型在视觉定位中的运动使用机制 论文编号2509.02807[20][33] 视频理解 - DeepTraverse采用深度优先搜索网络实现算法化视觉理解 论文编号2506.10084[25] - 英伟达与台湾大学开发ThinkAct视觉-语言-动作强化推理系统 论文编号2507.16815[27] 图像视频生成 - Fast and Fluent Diffusion通过卷积解码和拒绝微调提升扩散语言模型效率 论文编号2509.15188[34][63] - AutoEdit实现图像编辑超参数自动调优[31] - OmniSync通过扩散变换器实现通用唇形同步 论文编号2505.21448[36][38] 具身智能 - DeepMind推出自改进具身基础模型 论文编号2509.15155[46][50] - 复旦与上交等机构开发ForceVLA力感知混合专家模型 用于接触式操作 论文编号2505.22159[48][51][64] 大模型训练 - Scaling Offline RL通过高效表达捷径模型扩展离线强化学习 论文编号2505.22866[40][44] - 研究发现在机械推理中LLM世界模型存在输出层脆弱性 论文编号2507.15521[40][62] 大模型微调 - 卷积解码和拒绝微调技术提升扩散语言模型性能 论文编号2509.15188[42][63] - 联邦学习框架实现自适应LoRA专家分配与选择 论文编号2509.15087[42][55] - 康奈尔大学开发差分隐私联邦低秩适配技术 论文编号2507.09990[44] 医疗诊断评估 - 构建3D肿瘤中心视觉问答医疗基准测试VLM诊断能力 论文编号2505.18915[39][44][57] - DeepTumorVQA项目评估视觉语言模型临床诊断准备度[39][44][57] 文档理解与安全 - STEM-POM评估语言模型在文档解析中的数学符号推理能力 论文编号2411.00387[55][65] - AgentMisalignment测量基于LLM智能体的行为错位倾向[55] - 概念级可解释性技术用于审计和引导LLM响应 论文编号2505.07610[54] 代码生成 - SBSC逐步编码方法提升数学奥林匹克竞赛性能 论文编号2502.16666[60] - 卷积解码和拒绝微调技术优化扩散语言模型代码生成 论文编号2509.15188[60][63] 强化学习 - 强化视觉潜在规划实现视觉-语言-动作推理 论文编号2507.16815[23][27][65] - 扩展离线强化学习通过高效表达捷径模型 论文编号2505.22866[40][44] 持续学习 - 持续学习技术改进多模态大语言模型 论文编号2410.19925[53][56] - 研究分布外泛化在ARC类任务中的挑战 论文编号2505.09716[66] 人机交互 - 实时直观AI绘图系统整合形式与上下文意图增强人类创造力 论文编号2508.19254[54] - 公平摘要技术平衡提取式摘要的质量与多样性 论文编号2411.07521[66]
FlowDrive:一个具备软硬约束的可解释端到端框架(上交&博世)
自动驾驶之心· 2025-09-23 07:34
核心观点 - 提出FlowDrive自动驾驶框架 在BEV空间中引入基于能量的流场表示 显式编码风险势场与车道吸引力场 实现安全可解释的轨迹规划[2][7] - 采用任务解耦设计 分离运动意图预测与轨迹生成过程 减少梯度冲突与特征干扰[6][9] - 在NAVSIM v2基准测试中EPDMS评分达86.3 超越现有SOTA方法0.3分 在安全性与规划质量方面表现最优[3][40] 技术架构创新 - 风险势场通过高斯函数建模障碍物排斥力 计算公式为$$U_{risk}(u,v)=\sum_{i}\eta\exp\Biggl{(}-\frac{\left\|(u,v)-(u_{i},v_{i})\right\|^{2}}{2\sigma^{2}}\Biggr{)}$$[20] - 车道吸引力场结合横向距离与纵向弧长 计算公式为$$U_{lane}(u,v)=\frac{1}{2}k_{lat}d(u,v)^{2}+k_{lon}(L-s(u,v))$$[20] - 流感知锚定轨迹优化模块通过Transformer动态调整初始轨迹 使其与能量极小值区域对齐[7][22] - 运动解耦生成规划器采用条件扩散框架 使用两组门控查询分离意图预测与轨迹去噪任务[28] 实验性能表现 - 使用ResNet-34骨干网络时EPDMS达84.9分 超越DiffusionDrive的84.2分和DriveSuprim的83.1分[40] - 采用V2-99骨干网络后EPDMS提升至86.3分 较最优基准方法提升0.3分[40] - 在DAC(97.4)、DDC(99.6)、TTC(97.9)等安全指标上显著领先[40] - 多模态设置下(图像+激光雷达)性能与TransFuser、DiffusionDrive相当或更优[41] 消融实验验证 - 移除流场学习模块导致EPDMS从86.3降至85.8[43][47] - 禁用自适应锚定优化使EPDMS下降0.4分[43][47] - 取消运动解耦设计导致性能降低0.2分[43][47] - 流场参数最优配置为$$k_{lat}=10.0$$, $$k_{lon}=1.0$$, $$\eta=1.0$$, $$\sigma=10.0$$[43] 行业技术背景 - 端到端自动驾驶成为主流范式 基于BEV的方法可分为回归式(如UniAD、VAD)与生成式(如GenAD、DiffusionPlanner)两类[10][11] - 流场表示在机器人领域早有应用 但此前未有效整合进端到端自动驾驶框架[12] - 多任务学习采用MoE、MMoE等门控机制 但现有方法存在特征纠缠问题[13]
自驾方向适合去工作、读博还是转行?
自动驾驶之心· 2025-09-22 18:30
自动驾驶现在适合去工作还是转行 or 读博? 刚刚和吉大一位研二的星友交流,咨询我们:传统规控想转端到端VLA,有些纠结现在是申博(也考虑转 具身),还是说毕业继续从事自动驾驶? 先不持立场,因为这个话题总是有不同的答案,不过我倒是很对里面涉及到的2个问题很感兴趣。 第一,你的实验室或者自己有没有自动驾驶的积累,算力/算法/硬件?或者放宽一些和机器人相关的基础。 很多高校的老师可能没有很深的背景,为了生存,半路出来做自驾,为了一些本子扩展实验室的方向,但 老师自己是没有能力培养学生的。这就导致:老师不知道要怎么做,但老师必须要做。自己懵懵懂懂开始 调研,但往往一头雾水,终于最后交差了,觉得自己懂行了,实则不是。而真的在实战中打磨过的同学才 知道,数据、模型、优化、后处理缺一不可,自驾和具身都是如此。前者,甚至都没有相关的硬件,尤其 是具身,还停留在仿真环境或者开源数据集上优化,其实和工业界的需求相差甚远。可想而知,如果去公 司任职,真的合格吗? 第二,读博这个问题。这位同学本身是985的研究生,未来你读博大概率去TOP4,甚至出国。你未来研究 的方向大概率是最前沿的课题,整个世界可能就一小撮人在做,甚至无人尝 ...
自动驾驶VLA发展到哪个阶段了?现在还适合搞研究吗?
自动驾驶之心· 2025-09-22 16:04
智能驾驶技术演进 - 行业正经历从规则驱动向数据驱动的根本转变 端到端方法虽能打通上下游视角 但在复杂困难场景中仍受限 [1] - 视觉语言动作模型成为新焦点 其本质是一种更直白干净的端到端架构 取消了复杂的3D感知任务 借鉴视觉语言模型的通用泛化能力 提供解决极端案例的可能性 [1] 技术发展现状 - 自动驾驶视觉语言动作模型技术栈尚未收敛 多种算法如雨后春笋般涌现 包括模块化架构和一体化架构等不同范式 [2] - 行业面临技术栈多样化带来的入门困难 论文数量繁多且知识碎片化 缺乏高质量文档和系统实战指导 从理论到实践的过渡存在挑战 [2] 课程体系设计 - 课程采用即时学习理念 通过通俗易懂的语言和案例帮助学员快速掌握核心技术栈 [3] - 构建领域框架提升研究能力 帮助学员梳理研究发展脉络 掌握核心框架 学会论文分类和创新点提取 [4] - 理论结合实践完成闭环学习 配备实战环节实现从理论到实践的完整过渡 [5] 课程内容架构 - 第一章概述视觉语言动作模型算法概念及发展历史 详细介绍开源基准测试和常见评测指标 [14][15] - 第二章聚焦视觉 语言 动作三大模块的基础知识 并扩展大模型部署使用内容 以Qwen 2.5VL-72为例讲解本地部署 [16][17] - 第三章讲解作为自动驾驶解释器的视觉语言模型经典算法 包括DriveGPT4 TS-VLM DynRsl-VLM SENNA等 重点分析算法动机和网络结构 [18][19] - 第四章深入模块化与一体化视觉语言动作模型 涵盖BEV感知 动静态检测 占用网络 轨迹预测 序列建模 模态对齐 动作解码器 RAG 思维链 监督微调 强化学习 混合专家模型等技术要点 [20][21] - 第五章专注推理增强视觉语言动作模型子领域 讲解思维链 记忆体 工具调用等推理模块 分析长时序规划和因果解释能力 [23][24] - 第六章设置大作业实践 基于ms-swift框架开展自定义数据集训练和模型微调 提供可修改优化的演示代码 [26] 实战案例配置 - 选用华科与小米最新提出的ReCogDrive作为第四章实战案例 包含预训练 模仿学习训练和强化学习训练三阶段 涵盖GRPO和扩散模型轨迹输出等技术栈 [22] - 选用清华AIR与博世提出的Impromptu VLA作为第五章实战案例 基于开源Qwen2.5 VL进行数据集制作 训练和推理 [24] 师资与学术资源 - 教学团队来自清华大学和QS30高校 在ICCV IROS EMNLP等顶级会议发表多篇论文 具备多模态大模型与自动驾驶研发经验 [27] - 课程覆盖多项前沿研究成果 包括慕尼黑工大OpenDriveVLA 上海交大DriveMoE 博世DiffVLA UC Berkeley S4-Driver 华科ORION 阿里FutureSightDrive UCLA AutoVLA 中科院Drive-R1等 [29][30] 教学安排要求 - 课程于10月20日开课 预计两个半月完成 采用离线视频教学配合VIP群答疑和三次线上答疑 [32] - 学员需自备4090及以上算力GPU 具备自动驾驶基础 Transformer大模型 强化学习 BEV感知等技术背景 熟悉Python和PyTorch开发语言 [31]
NeurIPS'25 Spotlight!自驾新范式FSDrive: VLA + 世界模型双管齐下(阿里&西交)
自动驾驶之心· 2025-09-22 07:32
视觉语言模型(VLMs)因其强大的推理能力,在自动驾驶领域受到日益广泛的关注。然而,现有VLMs通常采用针对特定场景设计的离散文本思维链(Chain-of-Thought, CoT),这种表征本质上是对视觉信息的高度抽象和符号化压缩,可能导致空间-时间关系模糊以及细粒度信息丢失。自动驾驶是否更适合通过真实世界模拟与想象建模, 而非纯粹依赖符号逻辑?本文提出一种时空思维链(spatio-temporal CoT)推理方法,使模型可视化地思考。 首先VLM作为世界模型生成统一图像帧以预测未来世界状态:其中感知结果(如车道分隔线和3D检测)表征未来的空间关系,普通未来帧则表征时间演化的动态关系。 该时空思维链作为中间推理步骤,使VLM能够充当逆动力学模型,基于当前观测和未来预测进行轨迹规划。为实现VLM的视觉生成能力,提出了统一视觉生成与理解的 预训练范式,并设计渐进式生成过程增强自回归图像生成方法。大量实验结果验证了该方法的有效性,推动自动驾驶迈向视觉推理。 项目链接:https://miv-xjtu.github.io/FSDrive.github.io/ 论文链接:https://arxiv.org/abs/ ...
4D标注与数据闭环,对一家自动驾驶公司究竟有多么重要?
自动驾驶之心· 2025-09-22 07:32
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 自动驾驶的第一性原理—数据驱动 而自动标注的核心则在于高性能的自动标注算法,面对不同城市、道路、天气和交通状况的智驾场景, 如何做好不同传感器的标定和同步? 如何处理跨传感器遮挡问 题? 算法如何保持泛化性? 如何筛选高质量的自动化标注结果? 又如何做好自动化质检? 全都是当下业内自动标注实际面临的痛点! 结课优惠!扫码学习课程 自动标注难在哪里? 自动驾驶数据闭环中的4D自动标注(即3D空间+时间维度的动态标注)难点主要体现在以下几个方面: 1. 时空一致性要求极高 :需在连续帧中精准追踪动态目标(如车辆、行人)的运动轨迹,确保跨帧标注的连贯性,而复杂场景下的遮挡、形变或交互行为易导致标注断 裂; 2. 多模态数据融合复杂 :需同步融合激光雷达、相机、雷达等多源传感器的时空数据,解决坐标对齐、语义统一和时延补偿问题; 3. 动态场景泛化难度大 :交通参与者的行为不确定性(如突然变道、急刹)及环境干扰(光照变化、恶劣天气)显著增加标注模型的适应性挑战; 4. 标注效率与成本矛盾 :高精度4D自动标注依赖人工校 ...
头部具身智能人形机器人公司最新估值/市值
自动驾驶之心· 2025-09-22 07:32
编辑丨具身智能之心 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有 你想要的。 头部具身智能人形机器人公司最新估值或市值一览。除了已上市公司外,这里展示的都是已完成或 正在交割的真实估值,未经实际交割、未获交易确认的估值均未列入,单位为人民币。注意,各公 司成立时间和融资阶段差异大。估值高低与技术、商业化水平不能简单划等号。 以下数字仅做参考,如有不足或者遗漏,欢迎后台留言。 Figure AI 2736亿 乐聚机器人 80亿 优必选 555亿 Sklid AI 324亿 Physical Intelligence 170亿 宇树科技 160亿 智元机器人 150亿 Apptronik 144亿 Field AI 144亿 Agility Robotics 126亿 云深处机器人 80亿 傅利叶机器人 80亿 World labs 70亿 Sanctuary AI 70亿 Boston Dynamics 70亿 银河通用 70亿 星海图 70亿 自变量 60亿 ...