Workflow
仿真数据
icon
搜索文档
搞自驾这七年,绝大多数的「数据闭环」都是伪闭环
自动驾驶之心· 2026-01-08 13:58
文章核心观点 - 当前自动驾驶行业所宣称的“数据闭环”大多停留在算法团队内部的“小闭环”,距离能够“数据直接解决问题”的“大闭环”或“真闭环”仍有显著差距 [1] - 实现“真闭环”需要满足问题发现自动化、解决效果可量化可复盘、投入产出可评估等多层要求,而目前行业普遍存在被动闭环、归因困难、链路断裂、组织结构制约等典型断点 [4][5][7][18] - 一套有效的实践方案是:从量化真实世界的“体感指标”出发,通过轻量高召回的车端触发机制、代码级统一的触发与验证体系、结合大模型的自动问题分类与分发,构建一个可演进的数据闭环系统 [24][25][41][43] - 未来的发展方向在于通过端到端架构和闭环仿真/世界模型等技术,降低解决每个问题的边际成本,使数据驱动从口号变为可规模化复制的基础设施 [84][85][88] 行业现状:理想与现实之间的差距 - **理想中的“真闭环”定义**:至少需要满足三层:1) 问题发现自动化,系统能从海量数据中自动发现异常行为并形成数据集;2) 解决效果可量化、可复盘,能持续追踪问题频率是否下降、是否引入新问题;3) 投入产出可评估,能判断每次数据、算力、开发投入是否值得 [4][5][7] - **行业普遍实践**:多数厂商的“数据闭环”实质是“数据驱动的研发流程加一些自动化工具”,且局限在单个算法团队的“小闭环”视角 [8] - **典型小闭环流程**:线上触发/抽取 → 清洗与标注 → 训练/回归 → 上线与监控,这更多是模块级、算法视角的闭环,而非系统级闭环 [9][13] 实现“真闭环”的主要挑战与断点 - **起点被动**:大量问题仍依赖司机反馈、运营投诉、领导试驾或人工刷录像等被动方式发现,是“问题驱动数据”,而非“数据自动发现问题” [10] - **归因困难**:同一现象(如急刹)背后常是感知、预测、规划、控制等多模块高度耦合的原因,缺乏体系化诊断工具,导致责任难以界定,效率低下 [12][15] - **链路不完整**:许多团队的闭环止步于“数据到模型”,即关注离线技术指标提升,但未追踪是否解决了哪个具体的线上真实业务问题 [16] - **自动化程度有限**:从问题发现、标注、训练、评估到上线的全流程中,人工干预环节仍占大头,系统更像高度自动化的生产线,而非可自我决策的“自愈系统” [17][21] - **组织架构制约**:感知、预测、规划、控制、地图等团队以及Tier1、整车厂等各方边界分明,OKR各异,导致系统级闭环被组织结构天然拆散 [18][22] 一套具体的数据闭环实践方案 - **核心理念**:从“体感指标”出发,用Trigger(触发器)把世界离散成token,再用大模型(LLM)做分类和路由,最后用统一代码串起“发现”和“验证” [25] - **量化真实痛点**:将急刹、接管、大幅转向等用户有感的“体感指标”作为第一公民,要求100%记录,并沉淀为“每万公里急刹车率”等可统计指标 [26][27][28] - **车端轻量触发机制**:在算力受限(如单颗Orin X)条件下,设计高召回、低开销的micro log机制,一旦发生疑似事件(如急刹),即打包关键状态信息上传,宁可多报,不能漏报 [30][32][33] - **云端验证与数据拉取**:云端对micro log进行规则/模型过滤,确认可信后,再下发任务拉取包含更多中间结果和短视频的mini log,实现按需、分层的数据上传,避免带宽浪费 [34][35][38][39] - **代码级统一**:将定义问题的Trigger逻辑代码在车端实时挖掘、云端历史数据挖掘、仿真验证评价三个场景中统一,确保从发现问题到验证修复的语义一致,无实现偏差 [41] - **问题自动分发体系**:将Trigger体系视为领域专用的tokenizer,将原始数据流转化为高层语义事件序列(token),再文本化后输入大模型,由大模型作为时序分类器进行根因归因和团队路由 [43][45][47] - **持续学习闭环**:利用研发人员在问题系统中真实的“改派”行为作为弱监督标签,持续回流训练大模型分类器,使其在真实业务分布下越用越准 [49] - **降低规则编写门槛**:所有Trigger逻辑用纯Python实现并统一接口,配合详细的文档和示例,并利用大模型辅助,让测试、运营等非算法人员也能用自然语言描述需求并生成可微调的Trigger代码 [50][54][55] - **量产环境解耦**:将数据挖掘Trigger设计为可云端下发的“配置”或运行在车端沙箱中的脚本,使其与主算法版本解耦,能灵活、快速地响应突发场景(如大雪天)的数据挖掘需求,而不影响系统安全与稳定性 [56][57] 数据管理与使用的关键见解 - **区分标签类型**:严格区分“世界标签”(如天气、道路类型、交通参与者数量)和“算法标签”(如感知框抖动、规划重规划频率),前者用于精细场景筛选,后者用于算法归因调参 [60][61] - **向量检索的正确用法**:向量检索适合作为“精筛”工具,而非“粗筛”主力面对海量数据时,应先用结构化标签规则过滤掉80%-90%的无关系数据,缩小范围后,再用向量检索进行语义级细筛,以提升效率和精度 [62][63][64] - **生成式/仿真数据的定位**:主要用于补充现实中难以凑齐的长尾场景训练数据(如临时路障、路面坑洼),以扩大模型“见世面”但最终用于评测和放行的评测集必须坚持使用真实数据,因为无法完全模拟真实世界 [66][67][69] - **监控模型副作用**:在引入生成数据提升召回时,需警惕误检(FP)在未知场景下恶化的风险采用对两个版本进行逐帧全量结果差分的方法,系统性监控差异模式,评估“涨得干不干净”,而不仅仅看召回率涨幅 [70][74][77] 未来展望与演进方向 - **当前本质**:现有体系更接近一个“Bug-Driven开发体系”,核心是更快、更准、更系统地发现、量化和跟踪具体问题(bug) [77][80] - **现存卡口**:当前主要瓶颈已从“发现问题”侧,转移到“谁来解决问题、怎么解决问题”侧,受限于人工标注成本、仿真验证的可信度以及研发人员带宽等刚性约束 [81][82][86] - **积极方向**:端到端/模仿学习架构的兴起,通过直接对齐人类驾驶行为,绕开了中间真值难标的问题;同时,闭环仿真/世界模型的快速发展,旨在让“在仿真里充分暴露问题、充分迭代”更接近真实世界 [84][87] - **最终目标**:通过降低解决每个问题的边际成本,并结合在Trigger体系、自动分类等工程实践上的积累,使“数据驱动”从口号变为一套能持续运行、可核算、能规模化复制的基础设施 [85][88]
理想VLA含金量分析与关键迭代方向预测
理想TOP2· 2025-08-09 14:18
理想VLA的核心价值 - 理想VLA属于DeepSeek MoE级别的创新,虽非MLA级别的首创理念,但首次完整落地至汽车领域并取得显著成果,架构设计与执行高度原创 [2] - 公司在AI软件与硬件结合方面达到行业领先水平,克服了硬件迭代慢、AI软件与传统编程差异大的挑战 [3] - 创始人李想(44岁,高投票权)是VLA推进的核心灵魂人物,其资源调配、关键决策能力(如押注强化学习路线)对技术方向起决定性作用 [4][5] - 强化学习为核心的VLA架构长期将显著优于模仿学习主导的端到端路线,具备针对性解决bad case和持续迭代的优势 [6][9] 理想VLA的技术架构与迭代方向 - 技术内核为强化学习主导,通过仿真环境试错学习最优策略,区别于监督学习的标记数据依赖和端到端的单纯模仿 [9][10] - 当前车端部署4B参数模型(较小规模),未来需提升本地推理能力以支持更大参数量模型,同时确保时延达标 [12] - 关键迭代路径:1)优化仿真数据效率(低成本、高质量、快速生成);2)挖掘现有芯片算力潜力或升级硬件;3)强化学习驱动的能力跃升 [8][12] - 长期若未实现L4,可能转向在线学习等新架构,允许模型权重动态更新,但需解决超级对齐等安全问题 [13] 行业技术对比与创新点 - 端到端方案依赖模仿学习,拟人性提升但缺乏思考能力,bad case改进效率低(类似炼丹);理想VLA通过强化学习实现针对性优化 [9][10] - 仿真数据替代真实数据成为核心训练资源,解决强化学习对交互场景的高需求(如AlphaGo无人类棋谱训练案例) [10][11] - 公司展示的工程能力包括:仿真系统优化(如无保护左转的自我博弈训练)、芯片算力压榨、跨领域技术整合(如扩散模型生成轨迹) [12][2] 创始人角色与资源分配 - 李想直接参与AI学习与决策,确保资源高效投向VLA而非端到端,并推动双Orin平台兼容前沿模型(2022年车型支持2025年技术) [4] - 创始人深度介入避免团队陷入无效争论,保障技术路线执行力(对比技术灵魂人物离职导致资源中断的案例) [5][4]
WAIC观察|仿真不稳、真机太贵?机器人数据最优解出现了吗
第一财经· 2025-07-28 10:07
机器人训练数据路径争议 - Physical Intelligence联合创始人Sergey Levine主张真实世界数据对机器人训练不可或缺 挑战业界用仿真数据替代真机的做法 [1] - 行业面临关键选择:优先依赖低成本快速的仿真数据 或回归真实环境积累高质量真机数据 [1] 仿真数据优先派观点 - 银河通用采用Sim2Real路径 主要依靠合成仿真数据 主张在零真实数据情况下启动训练 [2] - 通过"摇操"采集真人动作数据对创业公司成本高昂 [2] 真实数据优先派观点 - 擎朗智能CEO李通强调需将机器人部署到实际岗位 通过真实任务积累有效数据 [3] - 机器人需在明确岗位达到万级部署量才能积累对模型有效的数据 非百台级别能解决 [3] - 服务业场景底层"动作元素"(抓取、递送、避障等)可泛化 但需足够丰富真实数据支撑 [3] 数据融合技术挑战 - 灵初智能指出仿真和真机数据不能简单混合使用 模型会识别数据来源并分配不同权重 [9] - 灵初方案:仿真用于大规模预训练 少量真机数据完成最终微调 [9] - 北京人形机器人创新中心仿真与真实数据使用比例为7:3 [9] - 国家地方共建人形机器人创新中心真实数据与仿真数据占比为3:1 [9] 真实数据的不可替代性 - 智元机器人100%使用真机数据训练多模态大模型和VLA模型 [10][12] - 自变量机器人COO杨倩指出仿真在"下半身"训练(步态规划等)占主流 但"上半身"精细操作仿真能力有限 [10] - 长链条柔性交互任务(如制作香囊)仿真工程开销巨大 甚至不可完成 [10] - 自变量机器人采用端到端真实数据采集 一周内完成机器人完整制作任务训练调优 [12] 行业实践与投入 - 智元机器人自建专业数采工厂 形成全球最大数据集AgiBot World并开源 [12] - 发布行业首个通用具身基座模型启元大模型 具备"一脑多形"适配能力 [12] - 自变量机器人处于PoC阶段 与酒店、养老等行业联合测试非结构化环境部署能力 [10] 行业现状共识 - 真实和仿真数据孰优孰劣尚无定论 尚未有企业通过单一数据路径跑出通用智能完全体 [4] - 具身智能处于落地早期阶段 高昂的真实数据采集成本是行业必须面对的代价 [10]
英伟达对机器人下手了
远川研究所· 2025-03-20 20:35
英伟达布局人形机器人领域 - 公司通过CES展和GTC大会展示机器人战略,发布仿真平台Cosmos和基础模型Isaac GR00T N1,构建从训练算力(DGX)、仿真数据(Omniverse)到终端芯片(Jetson Thor)的全套解决方案[1][3][4][19] - 物理AI被视为AI新浪潮,人形机器人是核心载体,需通过仿真数据训练算法理解物理规则[7][8][16] - 公司未直接造机器人,而是提供底层技术设施,类比"修建收费站"商业模式[5][20][44] 人形机器人技术突破方向 - 智能化是核心差异点,需具备理解语言、自主决策能力,案例显示RT-2模型机器人可识别"灭绝动物"并执行操作[10][11][12] - 仿真数据填补真实数据缺口,特斯拉已应用37.1亿张仿真图片训练模型,自动驾驶依赖真实数据而机器人更依赖仿真[16][17] - 传统工业机器人仅执行预设任务,人形机器人需模拟人类思考过程[9][13] 英伟达技术积累路径 - 通过游戏业务沉淀物理引擎技术,收购Ageia后整合PhysX至GPU,应用于医疗、影视等工业场景[22][25][27][28] - 光线追踪技术展示实时物理模拟能力,为机器人/自动驾驶场景奠定基础[29][30] - Omniverse平台延续"虚拟世界物理规则模拟"逻辑,形成技术复用闭环[24][31] 公司业务扩张战略 - 经营逻辑为覆盖高价值场景:游戏(2010前)→移动设备(Tegra失败)→自动驾驶(占比<5%)→AI(ChatGPT引爆需求)→物理AI(机器人)[32][34][37][39][41] - 软硬件绑定模式:提供芯片+软件工具箱(CUDA/NVLink/Cosmos),形成生态壁垒[42][43] - 黄仁勋提出技术演进三阶段:生成式AI→智能体AI→物理AI,机器人属于第三阶段[41]