Workflow
UniAD
icon
搜索文档
用QA问答详解端到端落地:[UniAD/PARA-Drive/SpareDrive/VADv2]
自动驾驶之心· 2025-08-30 00:03
端到端自动驾驶模型分类 - 端到端模型分为完全黑盒OneNet和模块化端到端两种类型 其中模块化端到端通过感知 预测和规划模块间的feat-level/query-level交互减少误差累积 [3] UniAD框架架构 - UniAD框架包含Backbone Perception Prediction和Planner四个模块 输入多视角相机图像 Backbone提取BEV特征 Perception完成场景级感知 Prediction基于时序和场景交互进行多模态轨迹预测 Planner基于预测轨迹和BEV特征规划路径 各模块均采用Query+Transformer结构实现信息交互 [4] TrackFormer模块设计 - TrackFormer的query由检测query 跟踪query和ego query三部分组成 检测query用于识别新目标 跟踪query动态变化以匹配目标消失 推理过程采用BEVFormer检测新目标并将当前检测query合并到下一时刻跟踪query集合中 通过QIM模块与历史track query进行MHA交互获取时序信息 [6] MotionFormer交互机制 - MotionFormer包含三种交互类型:agent-agent(动态agent间交互) agent-map(静态地图交互) agent-goal(目标轨迹交互) motion query由目标点位置 上下文信息 当前位置及先验位置信息五部分组成 输出多模态轨迹 训练损失包含轨迹点距离和物理约束 [10] OccFormer结构特点 - OccFormer采用类RNN结构 以历史场景特征和稀疏agent特征为输入 通过pixel-agent interaction的mask cross-attention机制 使场景特征聚焦于局部相关agent信息 最终输出包含agent ID的占用网格 [9][11] PARA-Drive并行化改进 - PARA-Drive基于UniAD模块重构连接方式 所有子模块采用并行同步协同训练 仅通过更新的BEV query实现模块间联系 测试时可移除Map/Motion/Occ模块提升推理速度 [13] Panoptic SegFormer分割技术 - 通过多尺度特征融合(s8/s16/s32)作为encoder输入 decoder分两步:第一步用DETR方式精炼query并引入目标检测监督 第二步通过cross-attention进一步优化query 输出统一尺寸的特征进行掩码和类别预测 [14][15] SpareDrive稀疏感知架构 - 包含图像编码器 对称稀疏感知和运动规划三部分 图像编码器提取多视角多尺度2D特征 对称稀疏感知并行处理agent检测和地图任务 agent检测采用DETR范式 结合时序与非时序decoder 地图任务使用polyline anchor表示道路结构 [17][20] VADv2规划模块设计 - planning transformer输入包括规划token 场景token和导航token 通过交互输出动作概率 规划token通过最远距离采样从人类驾驶数据中提取代表性动作轨迹 训练使用真实动作概率约束和轨迹冲突损失 [23] 运动规划层级选择机制 - 包含自车实例初始化 时空交互和层级规划选择三部分 时空交互聚焦实例级历史交互 输出多轨迹和多规划方案 层级选择先根据驾驶命令筛选轨迹 再结合周围agent预测计算碰撞风险 最终输出最高分轨迹 [25]
直播分享!“具身数据困境”:仿真技术、真实数据与世界模型的碰撞交融
具身智能之心· 2025-08-30 00:03
行业技术路径 - 具身智能发展主要围绕仿真技术、真实数据与世界模型三大路径展开 这些路径既存在竞争又相互融合 [3] - 物理仿真技术已进入深水区 真实数据到仿真的转换技术(real2sim)正推动仿真路线发展 [11] - 业界构建了超大规模训练场Agibot World 包含百万真机与千万仿真数据集 系统研究具imbing智能的Scaling Law方法论 [4] 核心技术突破 - 端到端自动驾驶方案UniAD获IEEE CVPR 2023最佳论文奖 其技术方案被特斯拉2023年推出的FSD采用 [4] - 开发全球首个开源模块化真实感自动驾驶仿真器MARS 并获得CICAI 2023最佳论文Runner-up奖项 [5] - 神经渲染方法SlimmeRF实现渲染阶段精度与速度的可调节 获得3DV 2024最佳论文奖 [5] - Open X-Embodiment项目获得ICRA 2024最佳论文奖 CAST项目获得SIGGRAPH 2025最佳论文奖 [7] 数据争议与解决方案 - 针对真实数据不可替代性的争论 行业探讨这是策略选择问题还是AI演进必经之路 [3][11] - Genie3世界模型的问世引发行业关注 世界引擎可能成为解决具身智能数据问题的终极方案 [11] - 俯视图感知方法BEVFormer成为业界广泛使用的纯视觉检测基准 入选2022年百强影响力AI论文榜单 [4] 学术与产业贡献 - 研究团队在CVPR/ICCV/ECCV/SIGGRAPH/NeurIPS/ICLR等顶级会议发表50余篇论文 多次获得最佳论文奖项 [5][7] - 学术成果获得多项荣誉包括2024年中国吴文俊人工智能青年科技奖 香港博士政府奖学金等 [4][7] - 构建的具身智能训练场包含百万级真机与千万级仿真数据集 为行业提供大规模训练基础设施 [4]
地平线「国产FSD」交卷,抢先体验在此
36氪· 2025-08-26 08:44
地平线HSD技术突破 - 公司推出行业首个开源端到端智能驾驶系统HSD 采用一段式端到端架构 取代依赖规则兜底的传统方案[2][4] - 系统基于自研J6P计算硬件 算力达560TOPS 征程系列芯片出货量突破1000万片[2][4] - 技术实现三大创新:稠密模态信息处理保留环境不确定性 横纵向联合优化消除机械顿挫感 后处理与安全校验确保指令安全[20][21][24] 实际道路表现 - 纵向速度控制显著进步 红绿灯起步效率领先 跟车过程张弛有度 有效防止被插队[6] - 路口转向保持持续移动 方向控制稳定无抖动 应对机动车和非机动车表现细腻[8] - 具备拟人化决策能力 对遮挡视野场景判断准确 主动绕行和借道避让表现突出[11] 技术架构优势 - 感知层采用通用障碍物检测(OCC) 可识别非常规障碍物 输出高精度3D占据栅格[25] - 认知决策引入"快慢思考"双系统 快思考处理即时反应 慢思考整合大语言模型理解交通规则[29][31] - 控制执行通过大规模学习人类驾驶数据 实现高度拟人化的加减速和转向控制[32] 数据驱动体系 - 建立全自动化数据闭环 涵盖路测数据回收、场景提取、仿真验证到模型训练 支持每周新版本迭代[33][36] - 通过强化学习在仿真环境中自主探索 提升对罕见危险场景的处理能力[31][33] - 100%数据驱动模式减少对人工规则的依赖 通过模型能力提升持续优化系统[13][36] 行业战略定位 - HSD被定位为"中国版FSD" 首搭于奇瑞星途星纪元车型 将于成都车展正式亮相[4][37] - 公司坚持一段式端到端技术路线 认为VLA方案存在延迟过高问题 在1000T算力平台延迟达530ms[39][40] - 目标实现三年hands off驾驶体验 通过数据驱动与大模型融合推动范式革命[36][37]
端到端自动驾驶万字长文总结
自动驾驶之心· 2025-07-23 17:56
端到端自动驾驶算法研究背景 - 传统自动驾驶算法采用模块化流程:感知→预测→规划,每个模块输入输出不同,存在误差累积问题且感知信息存在损失[3][5] - 端到端算法直接输入原始传感器数据并输出路径点,避免了模块间误差传递,但面临可解释性差和优化困难等挑战[3][7] - 传统算法优势在于调试便捷和可解释性,而端到端方法在信息完整性方面表现更优[3] 端到端算法技术范式与挑战 - 当前主流采用模仿学习框架,包括行为克隆和逆优化控制两种方法,但难以处理corner case且真值数据存在噪声[7][8] - 评估方法分为开环(固定场景)和闭环(动态交互)两种,因果混淆现象是典型挑战[8] - 技术难点还包括输入模态多样性、多任务学习、知识蒸馏及安全保证等问题[8] ST-P3算法实现细节 - 采用时空学习框架,明确设计感知/预测/规划三模块,创新点包括自车中心累积对齐和双路预测机制[10][11] - 感知模块通过LSS范式生成BEV空间表征,考虑RO/PG角不为零的情况并进行时序融合[13] - 规划阶段引入红绿灯编码优化轨迹,代价函数综合距离/加速度/终点偏差等指标[14][15][16] UniAD系统架构 - 全Transformer框架以规划为导向,包含MapFormer/MotionFormer/OccFormer/Planner等模块[23] - 创新性引入五个代理任务提升性能,通过TrackFormer实现动态Agent跟踪[25][26] - 规划模块整合转向灯信号和自车特征,基于碰撞优化输出最终轨迹[31] 矢量化方法VAD - 将栅格表征转为矢量形式保持几何特性,计算速度优势明显[32] - 通过Map Query/Agent Query分别预测地图矢量和运动矢量,与自车状态交互完成规划[33] - 引入三类约束条件:碰撞约束/边界距离约束/方向约束,通过成本抑制机制优化[38][39][40] 概率化表征方法 - 采用概率分布替代确定性轨迹,解决多模态场景下的折中轨迹问题[42] - 离散化动作空间为4096种规划token,通过场景交互选择最优概率轨迹[43] - GenAD工作采用VAE式生成建模,训练时学习轨迹分布,推理时采样生成[44][46] 多模态规划进展 - 英伟达研究结合多模态规划与多模型学习,增加基于规则的教师模型蒸馏损失[49][52] - 监督信号涵盖无责任碰撞/可行驶区域合规/驾驶舒适性等指标[52] - 当前技术仍受限于数据驱动特性,对异常案例处理能力有待提升[53]
商汤-W(00020) - 2024 H1 - 电话会议演示
2025-05-06 16:37
业绩总结 - 2024年上半年集团收入为人民币17.4亿元,同比增长21%[6] - 2024年上半年公司收入为1,740百万人民币,同比增长1.3%[70] - 2024年上半年公司毛利为1,433百万人民币,毛利率为21.4%[70] - EBITDA亏损同比减少26%[8] - 净亏损同比减少21%[9] - 2024年上半年净亏损为(2,775)百万人民币,净亏损同比收窄6.4%[70][71] 用户数据 - 生成式AI收入为人民币10.51亿元,占集团总收入的60%[6] - 生成式AI收入同比增长256%[6] - 2024年上半年智能计算服务市场份额排名第三[6] - 2024年上半年大型语言模型平台市场份额排名第二[6] - 2024年上半年智能汽车业务收入同比增长100%[56] 市场展望 - 2023年至2028年中国AI智能计算服务市场预计年均增长率为21%[29] 研发与投资 - 2024年上半年研发费用为797百万人民币,同比减少21.2%[73] - 2024年上半年公司权益投资为5,004百万人民币[83] 现金流与支出 - 2024年上半年总现金为9,913百万人民币[82] - 2024年上半年资本支出为700百万人民币,占收入的40.2%[81] 运营效率 - 2024年上半年应收账款周转天数为178天[75] - 2024年上半年存货周转天数为161天[75] - 2024年上半年贸易应付款周转天数为91天[75]
商汤-W(00020) - 2024 H1 - 业绩电话会
2024-08-27 16:00
财务数据和关键指标变化 - 2024年上半年集团收入达17.4亿元人民币,同比增长21.4% [6] - 海外生成式AI收入达10.5亿元人民币,增长256%,占集团总收入50% [6] - EBITDA亏损减少26.5%,整体亏损减少21.2% [8] - 上半年毛利率达44%,与去年全年持平 [42] - 总运营费用下降1.4%,销售费用下降21.2%,管理费用下降7.7%,研发费用略有增加6.1% [43][44] - 营运资金周转效率仍面临挑战,现金转换周期延长 [45] - 贸易应收账款天数较一年前减少超100天,回收水平较高 [46] - 资本支出略有下降,现金储备和净现金分别达99亿元和46亿元人民币 [47][49] 各条业务线数据和关键指标变化 生成式AI业务 - 上半年收入达10.5亿元人民币,占集团收入60%,较去年的21%大幅提升 [6][12] - 全年收入预计超2023年,业务现金流良好且可持续 [14] - 超3000家行业用户使用其产品和服务 [15] 智能计算业务 - 截至8月,AI云部署GPU超5万台,总计算能力超2万PB,目标是到年底扩展到2.5万PB [18][19] - 在中国智能计算服务市场占有率约15%,排名第三 [21] 大模型业务 - SENSENOVA大模型从2022年底的1.0版本迭代到今年7月的5.5版本,整体能力提升30% [23][24] - 自年初至7月,SENSENOVA整体使用量增长数倍,企业用户数量增长超7倍 [26] 国际业务 - 同比增长40%,超过集团整体收入增长率 [32] 商汤汽车业务 - 上半年收入1.59亿元人民币,同比增长100%,占集团收入10% [33] - 交付71万辆新车,增长82%,拓展50款新车型 [34] 各个市场数据和关键指标变化 - 中国AI市场预计2024 - 2028年将产生万亿级市场,互联网行业率先使用大模型和智能计算 [9] - 中国智能计算服务市场预计未来五年复合年增长率超50%,到2028年市场规模近200亿元人民币 [21] 公司战略和发展方向和行业竞争 - 公司战略转向生成式AI,协同大模型和商汤核心技术,提升模型能力、降低推理成本并实现规模经济 [7] - 大模型市场竞争激烈,公司LLM平台和应用占15%市场份额,排名第二;AI业务服务排名第一 [7] - 智能计算市场发展处于早期,公司凭借技术和服务能力在竞争中保持优势 [21] - 汽车业务聚焦端到端智能驾驶、多模态智能座舱和为汽车制造商提供AI云服务 [34] 管理层对经营环境和未来前景的评论 - 生成式AI是热门投资主题,中国市场发展迅速,公司有望受益于行业增长 [9] - 公司在大模型竞争中取得领先地位,将继续平衡长期增长和短期投资 [8] - 对边缘AI前景乐观,认为随着用户基数扩大,新应用模式将逐渐出现 [53] - 看好国内计算能力推理成本降低趋势,特定垂直领域国内计算能力具有优势 [62] - 生成式AI行业处于早期,公司希望未来五年或更长时间保持高增长 [77] 其他重要信息 - 7月推出的Mirage产品“数拍”,试用九天用户达100万,月累计用户300万,生成照片2000万张 [31] - 商汤汽车业务参与多个海外项目,提升全球影响力 [34] 问答环节所有提问和回答 问题1: 公司在与智能手机制造商合作中,边缘AI的潜在应用及对苹果智能和Pixel 9中AI能力实施的看法 - 公司对边缘AI前景乐观,认为用户基数增长将催生新应用模式,不仅关注智能手机,还包括各类物联网设备 [53][54] - 公司优化边缘侧芯片,实现LLM在边缘设备上每秒超百字符推理速度,延迟降至几十毫秒 [55] - 利用计算机视觉优势开发实时多模态交互模型,有望在下游设备应用中广泛采用 [56] 问题2: 如何扩展计算能力资源以保持核心竞争力,以及国内计算能力的进展 - 采用战略方法,通过运营软件提高效率,扩大运营计算能力规模,虽会降低毛利率但可减少现金消耗 [59] - 看好国内计算能力推理成本降低趋势,特定垂直领域国内计算能力具有优势,关键是实现良好性价比 [61][62] 问题3: 下一代大模型的核心能力及与应用场景的对应关系 - 大模型性能提升需补充知识要点和构建高阶思维链数据,公司在视觉数据积累和垂直行业数据构建上具有优势 [67][68] - 模型架构调整和成本效益提升是下一代模型的改进方向,包括训练和推理效率以及多集群、多层次训练 [69][70] 问题4: 哪些产品或服务推动生成式AI收入增长,以及未来增长预期和驱动因素 - 公司凭借在AI基础设施和大模型的技术积累进行商业化拓展,受益于市场对计算能力和大语言模型技术的需求 [73][76] - 生成式AI行业处于早期,公司希望未来保持高增长,专注该领域以满足用户需求 [77] 问题5: 公司端到端算法商业化进展以及自动驾驶算法与底层大模型的协同情况 - 公司坚持纯视觉技术路径,积累大量视觉数据和计算资源,为汽车制造商提供计算能力和车载技术 [83][84][86] - 目标是2025年实现端到端算法大规模生产,目前正与汽车制造商合作进行联合技术开发 [88]