VLA 模型
搜索文档
智驾软硬件持续迭代,robotaxi未来已来
2025-11-03 10:35
智驾软硬件持续迭代,robotaxi 未来已来 20251102 当前智驾行业内主要车企的技术路线和进展如何? 目前智驾行业内的技术路线主要分为三类。第一类是端到端算法,这一方向自 特斯拉在 2021 年 AI Day 之后开始受到广泛关注。目前采用端到端算法并实 现量产上车的企业包括 Momenta、特斯拉和极氪等。端到端算法分为一段式 和两段式,目前量产应用的大多是两段式,一段式预计将在今年继续推进相关 工作。其优势在于通过较小算力即可实现城市 OA 功能。 第二类是 VLA(Vision Language Action)模型,代表企业有理想和小鹏。VLA 模型 结合语言模型对环境进行语义级别分析,并将这些信息传递给后续决策模块, 实现控车。然而,VLA 模型依赖语言模型的训练开发,需要大量资源。此外, VLA 对算力要求高,最低需求在 500 TOPS 以上,同时推理速度相对较慢,例 如理想目前能实现的推理速度约为 10 帧左右。 第三类是世界模型,这条技术 路线与 VLA 不冲突,可以结合使用。世界模型能够理解当前环境并预测未来几 秒内场景变化。例如华为、Momenta、地平线等公司正在开发这种方案。 ...
字节发布全新 VLA 模型,配套机器人化身家务小能手
搜狐财经· 2025-07-24 00:51
GR-3模型技术亮点 - 具备高泛化能力,能理解抽象语言指令并操作柔性物体,通过少量人类数据即可高效微调[2] - 采用改进模型结构,可处理长程任务并实现高灵巧度操作,包括双手协同和全身操作[2] - 采用三合一数据训练法,融合遥操作机器人数据、人类VR轨迹数据和公开图文数据[7] - 采用MoT网络结构,将视觉-语言模块与动作生成模块结合为40亿参数端到端模型[7] - 计划扩大模型规模和训练数据量并引入RL方法,提升泛化性突破模仿学习局限[7] ByteMini机器人特性 - 专为GR-3设计的通用双臂移动机器人,具备22个自由度和无偏置7自由度机械臂[4] - 机械臂采用球形手腕设计,可在狭小空间完成精细操作[4] - 搭载多颗摄像头实现细节与全局感知,配备全身运动控制系统[4] - 作为GR-3的配套躯体,能高效处理真实环境中的复杂任务[4] GR-3实际应用表现 - 在超长序列餐桌整理任务中展现高鲁棒性和成功率,严格遵循分步指令[4] - 能准确判断无效指令并保持不动,如处理不存在的物品指令[4] - 可控制双臂协同操作柔性物体,鲁棒识别整理不同摆放方式的衣服[5] - 能泛化抓取未见物体,理解复杂抽象指令如处理未训练过的短袖衣物[5] 行业技术发展趋势 - 泛化能力成为VLA模型研发重点,助力机器人在复杂场景快速适应新任务[7] - 机器人公司持续发力"机器人大脑"端,推动VLA模型技术进步[7]