端到端

搜索文档
某头部车企的自研大考......
自动驾驶之心· 2025-09-27 00:03
以下文章来源于红色星际 ,作者红色星际科技 红色星际 . 让更多人,更深入地了解自动驾驶行业! 作者 | 红色星际科技 来源 | 红色星际 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 某头部车企的智驾自研团队到了要"大考"冲刺交卷时刻了。据悉,今年内部制定的目标是9月30日研发出无图城区NOA,12月30日研发出端到端。 这是一场重要的限时"大考" ,对于智能化总负责人以及算法负责人来说,能不能如期交卷,决定了其未来的前途命运。 目前自研量产上车的高速NOA还非常依赖高精地图,即使把无图城区NOA和端到端自研出来,在研发进度也落后新势力以及头部智驾公司至少一年多。 如果不能如期交卷,就实在说不过去了,这家头部车企的BOSS就要问责了,会引发一波动荡。过去两年这家头部车企自研智驾上算是非常动荡,经历了几轮调整 重组,技术负责人换来换去。 更何况智驾研发上的投入非常大,已经超过了一些新势力。所以,智能化总负责人压力满满。 BOSS非常重视智驾,并将其视为未来战略的重中之重,所以研发投入非常舍得花钱。为了招 ...
VLA:有人喊“最强解法”,有人说“跑不动”
36氪· 2025-09-11 16:17
智能驾驶技术路径分化 - 智能驾驶行业出现VLA(视觉-语言-动作)与反VLA两大阵营分化 理想、小鹏、元戎启行支持VLA路线 华为、Momenta、博世、卓驭持反对立场 [1][27][43] - VLA技术通过引入语言桥梁实现隐式逻辑推理 旨在突破端到端模型90%性能瓶颈 提升系统认知与决策能力 [12][14][16] - 行业技术竞争焦点从纯技术路径转向资源分配策略与技术价值观博弈 [4][40][47] 端到端技术局限性 - 端到端模型存在两大缺陷:决策逻辑不透明(黑箱问题)及未见过场景处理能力缺失 [8][9] - 该模型可解决90%智驾难题 但剩余10%涉及安全的关键场景需依赖规则兜底 [10][11] - 当前行业共识认为端到端需结合规则代码保障基础交通规则遵守 [10] VLA技术优势与挑战 - VLA具备三维动态信息理解能力 如潮汐车道标识、交警手势 支持语音交互与风险预判 [19][20][21] - 技术落地面临三大挑战:多模态特征对齐困难、训练数据获取复杂度高、现有智驾芯片算力不足 [31][32] - VLA需7B-10B参数规模理想部署 但当前芯片带宽限制导致决策频率难以稳定维持10Hz [31] 阵营资源投入差异 - VLA路线需数十亿级资金投入 小鹏宣称仅投入数亿只能实现"微型VLA" [28][29] - 小鹏通过自研图灵芯片提供750TOPS算力 构建72B参数基座大模型支撑VLA [41] - 理想早期布局端到端+VLM融合 元戎启行聚焦英伟达Thor芯片应用 三方均具备人形机器人研发协同优势 [41][42] 替代技术路径发展 - 华为推出WEWA世界模型架构 通过端云结合降低时延 主张该路径为智驾终局解决方案 [36][37] - 地平线基于征程6P计算平台打造软硬一体方案 博世强化一段式端到端工程化量产能力 [43][45] - Momenta采用数据飞轮模式开发R6强化学习模型 强调商业可扩展性与成本控制 [46] 行业监管与发展阶段 - 监管政策禁止"自动驾驶"宣传用语 要求OTA升级需备案 智驾安全被提至绝对优先 [39] - L3政策未放开导致行业处于L2+功能优化阶段 用户感知的"利己效益"不明显 [39] - "车位到车位"功能落地后行业进入瓶颈期 技术突破需百倍级安全提升方能支撑L4落地 [35][38]
VLA之外,具身+VA工作汇总
具身智能之心· 2025-07-14 10:21
具身智能领域研究进展 2025年核心研究方向 - 扩散策略优化:多篇研究聚焦扩散策略在机器人操作中的应用,包括Latent Space强化学习[2]、流轨迹简化处理[2]、推理时模态组合[2]以及接触式操作的慢快策略学习[2] - 多模态融合:涉及视觉-触觉策略[3][5]、雷达-相机融合抓取[3]、跨模态表示学习[7][9]以及视觉-语言模型课程设计[3] - 通用化策略开发:包括跨机械臂适配的抓取策略[3]、零样本仿真到现实迁移[3][6]、物体中心表示法[7]以及大规模仿真训练[3][6] 技术方法创新 - 模仿学习革新:提出无机器人的人类视频训练[4]、单次演示学习[2][5]、演示数据生成[3]以及去噪加速策略[5][8] - 世界模型构建:Robotic World Model强调神经模拟器优化[2],LaDi-WM利用潜在扩散进行预测操作[7],Unified World Models耦合视频与动作扩散[6] - 高效策略架构:包括混合专家去噪器[6]、一致性蒸馏[8][9]、稀疏可重用策略[8]以及十亿参数级Transformer扩展[11] 应用场景突破 - 灵巧操作:涵盖双手协调策略[2][5]、非抓取式操作[5]、透明物体抓取[3]以及不规则物体追踪[4] - 跨领域迁移:研究分割掩码跨载体迁移[4]、人类视频到机器人动作转换[3][5]以及跨形态技能表示[6] - 实时控制优化:开发高频重规划策略[3]、事件相机驱动跑酷[5]以及流匹配快速策略[6][7] 数据集与训练范式 - 超大规模训练:Dex1B项目使用10亿演示数据训练灵巧操作[9],DataMIL研究数据选择对模仿学习影响[6] - 仿真-现实协同:Sim-and-Real联合训练方法在平面推动[5]和操作策略[5][6]中验证有效性 - 新兴训练技术:包括无数据模仿学习[5]、强化与模仿学习交错[5]以及人类视频预训练[7][11]