Workflow
关于理想VLA新的36个QA

技术架构与研发方向 - 强化学习在VLA架构中起关键作用 公司已增加大量推理卡资源支持强化训练[1] - VLA采用串联设计整合视觉-语言-动作模块 相比并联的VLM架构具备自主思考能力[3] - Diffusion模型被应用于轨迹生成 借鉴机器人领域经验但非完全跟随特斯拉方案[4] - 3D空间理解+2D全局语义构成VLA感知核心 解决传统VLM缺乏空间感知的痛点[7][29] - 基座模型团队专门设计8×0.4 MoE架构 优化芯片部署效率[28] 产品功能与用户体验 - EID界面仿真视频级渲染需更高算力支持 当前受限于驾舱芯片性能[2] - 语音控车功能支持复杂连续指令 规则引擎方案难以实现组合任务[25][26] - 三点掉头功能需Diffusion模型支持多模态轨迹拟合 配合决策思考能力[6] - 高速场景研发重点在超视距问题 事故后果严重性高于城区场景[22][23] - 人机共驾通过语音交互实现底层能力 优于方向盘信号干预方案[36][37] 技术实现与工程挑战 - 单芯片部署通过int4量化压缩带宽 结合FP8计算精度优化[12][13] - 模型规模扩展遵循Scaling Law 7B参数可通过蒸馏和数据优化提升智力[9][10] - 3D数据标注需全部重刷 标注内容与端到端阶段存在本质差异[32] - 极端工况识别受限于摄像头分辨率 需视觉与激光雷达前融合提升置信度[33][34] - 仿真数据占比约10% 主要用于特殊场景补充而非过拟合测试[23] 行业对比与发展路径 - L2渐进式路线与Robotaxi直接L4方案差异显著 前者强调全场景覆盖能力[10][11] - 特斯拉FSD V13未采用Language模型 漫游能力依赖端到端而非寻路逻辑[26][27] - 大模型公司缺乏3D数据资产 业务需求决定三维场景理解能力发展[30][31] - 关键人物推动技术迭代 但行业大势依赖基础设施与工程师群体[38] 法规与商业化 - 拍照功能受法规限制暂未全量发布 需与监管部门协同推进[15] - 召唤功能面临严格法规约束 能力储备先于政策放开[16][17] - 商业化路径强调用户规模普及 高精地图方案难以满足百万级车辆需求[25]