VLA架构
搜索文档
FSD v14很有可能是VLA!ICCV'25 Ashok技术分享解析......
自动驾驶之心· 2025-10-24 08:04
FSD V14技术进展 - Tesla FSD V14系列在两周内连续迭代4个小版本,从14.1到14.1.3,展现了快速进化节奏[4] - 初始版本14.1在驾驶AI能力上实现显著突破,后续版本分别优化刹车顿挫问题、引入Mad Max模式、扩大对Model S/X车型支持[4] - 这种高速版本迭代表明自动驾驶技术在融入其他AI领域进展后,正进入加速演化新阶段[4] 端到端架构优势 - 从V12版本开始,Tesla FSD转向全面端到端架构,实现从传感器像素输入到车辆控制信号输出的单一神经网络模型完成[7] - 端到端架构减少中间规则处理环节,使模型训练梯度能够从输出端无缝反向传播至感知端,实现模型各部分整体协同优化[7] - 该架构能更好地编码人类价值判断复杂性,通过大量学习人类驾驶数据掌握细微价值权衡[9] - 解决感知与决策规划间接口定义难题,神经网络间直接信息传递能最大程度减少信息损失[11] - 具备同构计算带来的确定性延迟优势,神经网络固定结构和参数量保证单帧计算延迟确定性[11] 端到端系统技术挑战 - 端到端模型面临维度诅咒挑战,输入信息维度相当于20亿token,而输出仅为2个token,需要解决从极高维度到极低维度映射问题[16] - Tesla通过强大数据引擎应对挑战,车队每日产生相当于500年驾驶时长数据,采用复杂触发机制回传长尾场景数据[18] - 公司采用VLA架构保障可解释性和安全性,系统输出驾驶控制指令同时输出多种中间结果,包括3D占据网格、动态障碍物、静态物体等[20] 技术创新与应用 - Tesla FSD V14很可能采用基于VLA的端到端技术方案,与国内头部自动驾驶团队技术路线不谋而合[22] - 自然语言决策实现慢系统思考,在复杂场景中展现逻辑推理能力,例如识别道路封路标志并通过推理做出左转决策[24][26] - Feedforward 3D Gaussian提供丰富监督信号和空间理解能力,相比点云或多边形表达更高效可微,相比NeRF等隐式表达几何信息更明确[28] - 3D高斯表征利用神经网络模型泛化能力,通过重建模型前向推理推导场景几何信息和颜色属性,不需要点云初始化[29] 评测体系与仿真系统 - 完善评测体系是端到端系统核心壁垒,训练Loss不能代表模型性能,开环指标不能保证闭环性能[32][34] - Tesla评测体系核心是基于神经网络闭环仿真系统,可利用大量廉价离线状态-动作数据对进行训练[36] - 闭环仿真系统具有三大作用:验证端到端Policy正确性、利用场景编辑生成能力生成对抗样本检验模型能力、在闭环仿真系统中获取人驾真值[36][38][42] - 丰富多样真实数据是自动驾驶核心资源,训练数据多样性和质量决定世界模型性能[40]
FSD V14深度解析!自动驾驶AI的觉醒时刻?
自动驾驶之心· 2025-10-18 00:04
FSD V14版本概述 - FSD V14被公司描述为具有"觉醒"体验的版本,预计将首次超越人类驾驶员的安全水平[2] - 该版本面向部分早期用户推送,旨在向"无人监督"级别迈出实质性一步[3][9] - V14已更新至V14.1.1版本,改善了顿挫与幽灵刹车问题,V14.2将于几周后发布[27] 技术能力提升 - 新增到达选项功能,支持在停车场、街道、车道、停车库或路边选择泊车位置[7] - 增加对紧急车辆(如警车、消防车、救护车)的靠边停车或让行处理能力[7] - 将导航和路径规划整合到基于视觉的神经网络中,实时处理道路封闭和绕行[7] - 提供额外的速度配置文件,进一步定制驾驶风格偏好[7] - 改进对静态和动态门的处理能力[7] - 增强对道路遗撒物(如轮胎、树枝、箱子)的绕行偏移能力[7] 场景处理优化 - 优化无保护转弯、变道、车辆切入和校车等多种场景的处理能力[7] - 提升系统故障管理能力,从降级操作中平滑恢复,增强可靠性[7] - 增加自动窄场清洗功能,提供快速高效的前摄像头自清洁[7] - 改进对挡风玻璃内部残留物积聚的警报功能[7] - 整体平滑度和感知能力得到提升[7] - 停车位选择和停车质量有所改善[7] 实车测试表现 - 在无GPS停车场环境中能准确识别"EXIT"出口文字与箭头,顺利找到出口[12] - 识别施工封路标志后执行掉头操作,并实时更新导航路线完成绕行[12] - 在夜间关闭的停车场场景中,快速判断通行不可行并立即转向寻找新停车地点[15] - 在窄路施工场景中准确识别施工人员手势标牌,完成停车等待和绕行通过[18] - 通过音频信号识别500米外警笛声,在严重拥堵路段提前寻找变道空间完成特殊车辆避让[21] - 在快餐店Drive-Thru场景中准确停靠点餐麦克风处,并自动跟车前行[24] 技术架构推测 - 可能首次引入语言模态,采用类VLA架构[12][28] - 模型参数量提升10倍,达到750亿规模,Context Length提升3倍[28] - HW4上的FSD V13模型文件规模达7.5GB,假设8bit存储相当于75亿参数[28] - 最可能的技术方案是MoE架构的VLA模型,使用local parameter类似MoE模型中不同的experts网络[28] - 音频输入被整合到控制模型中,新款Model系列配备4麦克风阵列加强音频处理能力[21][28] - 导航信息与视觉网络深度融合,使模型能够根据实时路况调整行驶策略[28]
千寻智能解浚源:展望迈向通用人形机器人的曙光时刻
新浪财经· 2025-06-30 16:22
具身智能技术发展 - 千寻智能采用三阶学习路径:互联网图像预训练注入先验认知、真实机器人模仿学习数据映射动作、强化学习提升完成度至接近完美 [3] - 该架构突破传统模仿学习局限,模型可灵活选择多种达成路径而非复制"平均动作" [3] - 硬件投入极小即可实现跨物品操作泛化能力,例如未训练过的机械臂能在火锅店首次完成倒水操作 [3] 千寻智能核心竞争力 - 同时具备顶尖硬件制造能力(创始人拥有十年机器人量产经验)与学术界先锋软件团队(首席科学家为清华助理教授) [5] - "软硬件全栈"能力成为实验室成果商业转化的核心优势 [5] - 公司使命为十年后让全球10%的人拥有个人机器人 [5] 行业应用与前景 - 通过工业场景叠衣操作等案例验证技术成熟度 [5] - 具身智能处于从实验室迈向商用的关键分水岭阶段 [5] - 研修会汇聚百余位青年科学家与上市公司企业家,反映行业关注度提升 [1]
自动驾驶未来技术趋势怎样?李想:现阶段VLA是能力最强的架构
快讯· 2025-05-07 21:27
理想汽车CEO李想关于VLA架构的评论 - 公司CEO李想认为VLA架构能够实现全自动驾驶,但对它是否是效率最高的方式提出疑问 [1] - 指出VLA基于transformer架构,而transformer架构现阶段是效率最高的架构 [1] - 认为VLA架构目前是能力最强的自动驾驶架构,但不排除未来可能出现更高效的架构 [1]