英伟达发布首个开源推理VLA模型Alpamayo - 公司宣布开源其首个用于自动驾驶的推理VLA(视觉-语言-动作)模型Alpamayo 1,旨在加速安全的自动驾驶技术开发[2][3] - 该模型采用100亿参数架构,使用视频输入生成轨迹及推理过程,展示每个决策背后的逻辑[2][9] - 模型旨在打造能在意外情况下“思考”解决方案的车辆,例如处理交通信号灯故障等复杂场景[2][5] 模型定位与部署计划 - 该模型并非直接在车内运行,而是作为大规模教师模型,供开发者微调并提取到其完整自动驾驶技术栈的骨干中[11] - 公司CEO黄仁勋表示,首款搭载英伟达技术的汽车将于第一季度在美国上路,第二季度在欧洲上路,下半年在亚洲上路[2][5] - 未来该家族的模型将具有更大的参数规模、更详细的推理能力、更多的输入输出灵活性以及商业使用选项[11] 技术原理:推理VLA - 推理VLA是一种统一的AI模型,将视觉感知、语言理解和动作生成与逐步推理集成在一起[13] - 与将视觉输入直接映射到动作的标准VLA模型不同,推理VLA模型将复杂任务分解成可管理的子问题,并以可解释的形式阐明其推理过程[14] - 构建推理VLA需要三种基本AI功能:视觉感知、语言理解以及动作和决策制定[14] 构建完整开放生态系统 - 除模型外,公司还发布了配套的仿真工具AlpaSim和数据集,构建完整的开发生态系统[15] - AlpaSim是一个完全开源的端到端仿真框架,用于高保真自动驾驶开发,现已在GitHub平台发布[15] - 公司提供了面向自动驾驶的大规模开放数据集,包含超过1700小时的驾驶数据,覆盖罕见且复杂的真实世界边缘案例,这些数据集可在Hugging Face平台获取[15] 获得行业广泛支持 - 开源举措获得了行业广泛支持,包括捷豹路虎、Lucid、Uber以及加州大学伯克利分校DeepDrive联盟在内的多家移动出行领军企业和研究机构表示将利用Alpamayo开发基于推理的自动驾驶技术栈[5] - 业界认为,这一开放举措有助于加速整个自动驾驶生态系统的创新,为安全地应对复杂的真实世界场景提供新工具[17] - 处理长尾和不可预测的驾驶场景是自动驾驶的决定性挑战之一,Alpamayo为行业创造了加速物理AI、提高透明度并增加安全的L4级部署的新机遇[17] 跨行业AI模型全面开放 - 公司同期发布了推动各行业AI发展的多个新开源模型、数据和工具,涵盖用于代理AI的Nemotron家族、用于物理AI的Cosmos平台、用于机器人的Isaac GR00T以及用于生物医学的Clara[2][19][21] - 提供的开源资源包括全球最大的开放多模态数据集合之一,含10万亿语言训练标记、50万个机器人轨迹、45.5万个蛋白质结构和100TB的车辆传感器数据[21] - 博世、CrowdStrike、Salesforce、ServiceNow、日立和Uber等科技业领头羊正在采用并基于英伟达的开源模型技术进行开发[22]
物理AI的ChatGPT时刻!英伟达“内驱”无人驾驶汽车将至,将于一季度在美国上路