纪要涉及的行业和公司 - 行业:自动驾驶、人形机器人 - 公司:特斯拉、英伟达、三花智控、拓普集团、绿谐波科技、北特科技、恒立液压、臻裕科技、明智电器、招维机电、中天科技、中大利德豪能股份、瑞迪智驱、安培龙 纪要提到的核心观点和论据 人形机器人大模型主流路线 - VTM:依靠大模型决策,通过 API 转化指令,调用传统算法或小模型 优点是大小模型各司其职、实时性强 缺点是存在理解和累计误差 适用于复杂场景,是短期商业化落地最优解,准确率达 80%以上 [2] - VRA:实现视觉、语言到动作闭环,决策全局最优 优点是避免理解偏差和累积误差 缺点是算力要求高、实时性差,目前仅适用于封闭环境简单劳动,准确率约 74%,控制频率 3 - 10 赫兹 [2][3][5] 学术界关注问题 - 提高模型准确性、泛化能力和决策准确率 目前主流大模型泛化能力差,VRA 方式准确率低、控制频率低 [5] 自动驾驶技术迁移至人形机器人的难点 - 端到端信息传递定义不同,机器人信号转换更抽象,需更高水平数据训练与计算能力 - 自动驾驶模块化设计依赖人为设定规则,中间需人为干预 - 机器人输入输出参数维度更高、作用机制复杂、高质量数据难以获得、本地算力部署要求更高 [6][11][12] 自动驾驶技术发展情况 - 端到端模型出现前,依赖模块化思维,由感知预测、决策、控制模块组成 - 端到端技术在感知层面实现自动标注,决策和执行层面仍依赖传统模型 - 特斯拉 FSD V12 是首个全局优化视角设计的大模型,国内厂商正向全局一体化联合架构推进,特斯拉领先约两年 [7][9][10] 数据的重要性及挑战 - 数据数量和质量决定大模型表现,人形机器人数据训练量至少是自动驾驶的十倍以上 - 人形机器人数据训练面临数据量、标注需求、数据质量和数据分布四大挑战,数据采集有真实数据和合成数据两种方案 [13][15] 人形机器人发展路径 - 短期:采用 VRM 方式加速产业落地,可在工厂特定封闭场景应用 - 中期:通过人工视觉反哺虚拟数据,提高仿真真实度和复杂性,实现分属或端到端架构,拓宽应用场景至消费领域,销量突破百万台 - 长期:依靠海量虚拟数据,实现彻底的一体化模式,覆盖全场景 [14][17][18] 其他重要但是可能被忽略的内容 - 英伟达在人形机器人仿真与合成数据训练方面走在前列,推出端侧 AI 计算平台 Jetson Orin,打造通用化机器人仿真平台 - 特斯拉采用计算机视觉结合真实数据的方法进行训练 - 推荐的人形机器人供应链核心企业,部分企业将在 2025 年迎来重要边际变化 [16][20]
大模型的进展-自动驾驶vs人形机器人