纪要涉及的行业和公司 - 行业:人形机器人、巨型机器人、计算机、智能大模型、VRM(Virtual Reality Modeling)、智能大规模AIIT项目 - 公司:飞利浦、字节跳动、特斯拉、瑞芯微、华为、英伟达、地平线机器人 纪要提到的核心观点和论据 1. 人形机器人发展阶段 - 第一阶段(2024年初开始):关注核心零部件和本体结构,搭建完整架构,对自身模型和AR能力关注少[3] - 第二阶段(2025年):本体硬件架构基本确定,从demo阶段向量产过渡,落地应用核心是AR和大模型能力满足用户需求[3] - 第三阶段(预计3 - 5年):实现硬件与模型深度融合,在生活场景广泛应用,AR能力显著提高[3] 2. 大型机器人研究方向 - 巨型机器人本体:已进入量产阶段[4] - 仿真技术:解决训练数据量不足问题,有虚实结合、完全虚拟化仿真、实产数据采集等路线[4] - 感知技术:主流通过视觉,还有力觉融合视觉、触觉传感器等方式,对应不同创新创业公司研究应用[4] - 智能体概念:强调垂类场景或任务专业性、高成功率和正确率[5] - 具身交互:通过仿生硅胶皮肤结合AR语音应用,实现自身交互场景落地[5] 3. AI Agent相关 - 计算机领域应用:在用户反馈和需求基础上,通过大语言模型拆解任务,调用工具或利用数据记忆提供规划功能,实现软件程序部署,强调专业性和高准确度[6] - 区分工具类型:调用软件接口或工具属传统软件层面;调用与物理世界交互的工具,如传感器、机械手臂等,属具身机器人领域,此时AI Agent成为“大脑”[7] - 具身机器人领域任务:负责任务决策规划与推理,调用底层硬件驱动机器人运动,不同场景使用不同类型AI Agent提高任务执行效率[8] 4. 具身机器人大脑框架层级 - 物理层:包括算力和分布式计算平台[9] - 训练层:使用开源大模型作为训练基础[9] - 数据层:涉及多元数据采集、来源、训练标准、清洗和格式标准[9] - 模型层:包括语言模型(LLM)、多模态模型(VLM)、视觉语言动作模型(VLA)[9] - 应用层:即ARI进程,根据场景设计AIID,有快思考(动作表情及执行动作)和慢思考(记忆推理和规划)能力[9] 5. VLA模型发展 - 谷歌贡献:最早发布基于RT - 1架构控制机械臂研究,后发布完整VLA模型RT - 2,但未开源,进展较慢[10] - 开源项目影响:斯坦福和伯克利大学开源AutoOrca和Open VLA模型带动行业发展,但有只能单臂操作缺陷;清华大学发布可双臂操作的RDT模型,促使谷歌开放RT - 2项目[12] - 谷歌RT系列版本特点:RTX使用x involved open involved数据,RTH是完全基于human about的整体RVIVRA模型[13] 6. 模型应用差异 - 飞利浦Helix架构与VOLATI模型区别:VOLATI采用完全端到端方法,用于研究和发表论文;Helix采用分层级系统,硬件升级只需重新训练部分参数,降低成本[14][15] - 工业界与学术界VLM应用差异:工业界采用分层级具身大模型架构,避免硬件升级导致软件重新训练;学术界采用完全端到端方法,不考虑硬件升级对软件影响[17] 7. VLA模型挑战及解决方向 - 挑战:数据量不足、任务泛化能力低、光照或背景变化影响性能[18] - 解决方向:引入3D空间感知能力,减少光照等影响,提高空间建模和感知能力,实现通用AGI[19] 8. 数据相关 - 巨型机器人VRA训练数据集:需要视频数据、互联网抓取视频数据等,质量较低,需提取动作信息[20] - 互联网数据评估:量大数据准确度受污染,未来价值不高;实验室仿真数据有局限性,真实数据更可靠;有许多开源数据集可使用且不断扩充[21][22] - 人形机器人数据采集:采集关节电机角度速度、末端执行器位置、视觉摄像头位置等数据;未来可能收集贴合人类感官的数据;Sim - to - Real差距缩小,域控技术降低量产成本[23] 9. 行业标准制定:涉及顶层设计和核心领域,是争夺话语权重要方面;不同场景需不同安全等级和评测标准;安全认证或行业标准认定类似3C认证但更严格;掌握制定权对市场发展影响重大[24] 10. 多模态大模型应用:在机器人领域应用壁垒高、成本昂贵;字节跳动豆包模型因提供丰富接口和中间件受欢迎;倾向使用成熟大模型或开源版本微调及开发应用层;在交互能力要求高但动作执行不完善时应用价值高[25] 11. VRM模型:交互能力核心是语音识别、输出和表情管理;语音技术进展显著,广泛应用于客服和电话营销;基于VLM模型训练,提升机器人任务识别、理解和规划能力[26] 12. 智能大模型发展趋势及终端厂商竞争力 - 发展趋势:通过大量多元数据训练通用且泛化能力强的VRA模型;整合人类感知数据提高任务成功率;结合传统算法与现代端到端VI模型进行精细化操作;可能出现统一基础VOI模型[27] - 终端厂商竞争力:对基础大模型优化,场景数据训练有独特优势,实现更好硬件结合与场景适配[27] 13. 智能大规模AIIT项目中VI模块发展方向:多模态感知融合,整合触觉、嗅觉等感知方式;精细化操作,结合传统算法与现代VI模块处理复杂任务;利用开放数据集提升性能并针对硬件微调[28] 14. 语义链、华为云链和自研链竞争优势差异 - 硬件部分:华为云链不涉及电机本体零部件生产;传感器通常外购[30] - 控制器选择:语义链可能用瑞芯微3,588芯片,算力低;华为自主研发CPU、NPU及模型;自研链早期依赖英伟达,未来可能与国内供应商合作[30] - 核心技术:都不放弃自主研发,可能在零组件及关键链接代工合作优化资源配置[30] 其他重要但是可能被忽略的内容 - VELAN模型结构简单,通过文本、视觉、动作编码数据输入训练,形成端到端VOA模型,类似特斯拉自动驾驶方案[16] - 智能化评价通过感知、决策和执行三个层面细分能力等级,比自动驾驶评价等级更精细[24]
多模态及具身大模型在人形机器人上的应用