核心技术:世界模拟器 - 公司发布由神经网络驱动的“世界模拟器”,能够生成逼真的虚拟驾驶环境用于测试和训练[1] - 该模拟器可基于初始视频片段,合成多视角、连续长达6分钟的驾驶画面,帧率为24帧/秒[2] - 模拟器能处理长尾场景,如行人横穿马路和车辆加塞,并在虚拟世界中以对抗性方式进行反复试炼[2] 技术架构:端到端神经网络 - 公司采用“端到端”神经网络方案,直接处理来自多个摄像头、车辆运动学信号、音频、地图等原始数据,并输出方向盘和油门/刹车的控制指令[4][5][7] - 该方案相比传统的模块化(感知-预测-规划)方法具有根本优势,包括能隐式学习人类驾驶价值观、消除模块间信息损失、具备更好的可扩展性以及符合Scaling Law规律[9][13][16][18][19] - 神经网络需处理高达20亿个输入信息单元(token),并将其压缩为2个输出指令,公司通过日均相当于人类500年驾驶经验的海量数据来训练模型,以学习正确的因果关系而非偶然相关性[22][23][25] 系统能力与可解释性 - 系统具备可解释性,能输出被称为“中间token”的思考过程,并利用“生成式高斯泼溅”技术基于摄像头输入生成新视角的3D场景,全程运行时间约220毫秒[33][34][38][40] - 人工智能还能用自然语言解释其决策,例如在复杂路况下(如雨天路滑)能对“二阶效应”进行预判,提前减速[29][30][40] 应用扩展与战略布局 - 公司将其为自动驾驶汽车开发的同一套AI大脑和世界模拟器技术,无缝迁移至人形机器人“擎天柱”项目,用于模拟其在物理世界中的导航与交互[2][3][47] - 公司的战略野心超越了造车,旨在打造一套可解决通用物理世界交互问题的底层AI引擎,汽车被视为收集数据和验证技术的首个应用载体[47]
马斯克「世界模拟器」首曝,1天蒸馏人类500年驾驶经验,擎天柱同脑进化