空间智能路线看vla模型赋能人形机器人
机器人机器人(SZ:300024)2025-02-25 23:33

纪要涉及的行业和公司 - 行业:机器人模型端、人形机器人行业 - 公司:海外有 figure、谷歌、特斯拉、Physical AI、派斯林等;国内有字节、银河通用、新动纪元、新海图、琼森、前进科技、星辰、志远、上海人工智能研究院、北大、中科院自动化所、中科汇灵、索辰科技、游族网络等 [1][16][28][30][31] 纪要提到的核心观点和论据 模型发展趋势 - 端到端是未来趋势:特斯拉 FSD 方案转到端到端后,其优势和想象空间激发传统模块化方案向端到端迁移,但因数据积累问题,中间出现分层级模型 [1][2] - 分层级模型发展:早期分层级模型是主流方案,利用传统机器人控制算法模块,结合大语言模型,后发展到多模态大模型和 VLM 模型,不过 VLM 模型对算力要求高,需优化参数量以面向端侧推理 [2][3] 各模型评价 - Helix 模型:是分层级模型端到端大脑的最新研究成果,采用整机全身人形采样数据训练,system 1 和 system 2 不算大创新,实现多机协作是创新点,对行业推动主要在工程落地和实践速度,预计刺激国内相关公司发布成果 [5][7][8][9] - 谷歌模型:是该领域最早推动者,发布 RT 系列模型,虽早期 RT1 不算严格 VLA 模型,但推动了行业发展 [5][6] - 开源模型:2024 年伯克利和斯坦福发布的 alter 的 VOA 模型、open VLA 模型,以及清华的 RTRDT 双臂 VLA 模型,推动了行业发展 [6] 模型架构争议 - Helix 架构是否成主流待争议:目前 VLA 模型架构路线存在争议,Helix 模型架构考虑执行控制频率差异设计,但清华大学双臂 RDG 模型表明单模型推理速度也能满足运动执行频率,未来是否分 system 1 和 system 2 有待争论 [10][11][13] - 多机协作难度不大:一个模型控制多智能体在人形机器人上是突破性方式,但因 VLA 模型本身可实现交互识别,且学术领域多智能体控制算法成熟,所以难度不大,可能用协作数据训练即可 [14][15] 国内外发展对比 - 发展阶段差异不大:国内外在端到端模型发展上无明显差异,国内部分模型参数性能可能更好,大家处于同一起跑线 [16] - 不同公司策略:以自身大脑为核心的公司会自主研发 VLA 模型;做本体或运动控制的公司可能找专门研究 VLA 模型的公司合作;特斯拉擎天柱未公开大脑方案,可能直接用大量数据训练模型,而创业型公司需用预训练模型结合微调数据训练 [17][18][19] 商业模式 - 三种商业模式:一是卖零部件和本体,用基础开源 VLA 模型;二是提供完整人形机器人产品,比拼软件和算法应用;三是只做软件算法,与本体厂商合作 [19][20] - 核心竞争力:未来人形机器人核心在于掌握大脑或软件层面,资本看重 AI 能力,未来比拼服务能力、订阅费和解决方案能力 [21] 模型适配与应用场景 - 硬件适配性:VLA 模型与硬件耦合程度没那么高,如 Figure AR 的 LX - 1 模型可迁移,且开源数据集硬件异构多,训练出的基础模型结合微调数据可适配不同硬件 [22][23][24][25] - 应用场景差异:工业场景数据标准化、场景干净,对模型要求在数据采集上更简单;家庭场景复杂,需模型有强泛化能力,未来模型可能按泛化能力分级应用 [25][26][27][28] 落地时间与领先公司 - 落地时间:今年 VLA 模型在商业服务领域可能有较大突破,如商超、便利店等;五年左右可能进入家庭特殊照顾场景;工业领域会逐步渗透 [29][30] - 领先公司:海外有 figure AI、派斯林等;国内新海图、银河通用、志远、中科汇灵等公司在第一梯队,有较强研发实力 [30][31][32] 投资机会 - 关注软件端合作:专门做 VLA 模型的公司可能与大上市公司代工厂合作;涉及大脑的公司如索辰科技在世界模型结合上有独特之处 [33][34] - 世界模型结合:将世界模型接入 VLA 模型可增强机器人泛化和预测能力,相关有算力优势的公司有爆发可能 [34] - 游戏公司结合:游戏公司如游族网络尝试将人形机器人大脑应用到游戏开发和 RPA 上 [35] 其他重要但是可能被忽略的内容 - 会议主办方方正机械团队后续会安排系列交流,包括手部专项交流、主机厂和供应链进度更新等 [35]