纪要涉及的行业和公司 - 行业:人形机器人、智能汽车、计算机 - 公司:特斯拉、谷歌、英伟达、软通动力、索诺声、百度 纪要提到的核心观点和论据 人形机器人软件 - 核心组成部分:上层算法、动作训练的数据中台、底层各模块融合和稳定运行的操作系统以及与硬件层面交互的芯片平台,自下而上依次为芯片平台、操作系统、数据中台和大脑及小脑[3] - 智能发展要素:依赖本体、环境和智能三大核心要素,通过“大脑”结合算法与物理世界交互,不断迭代提升智能水平[5] - 多模态模型作用:显著提升人形机器人对多模态信息的理解与转化能力,增强泛化能力,如谷歌 PM - 1 模型可拆解复杂任务[6] - AI 大模型发展阶段:经历模态独立发展、跨模态融合和集成智能三个阶段,集成智能是实现 AGI 的必经之路[7] - 大脑架构区别:传统大脑由多个小模型拼凑,面对小概率场景有局限性;现代多模态大脑采用“大脑 + 小脑”架构,提高处理复杂任务效率和适应现实世界能力[8] - 减少接口优势:减少接口数量可提高模型性能和系统理解力,端到端的 CLA 模型可实现反向传导[9] - VIA 计划瓶颈:动作数据降本少,难以训练高性能非 ARAM 模型,需在集群控制和速度优化上长期积累[10] - 终端系统挑战:实际应用中生成指令速度慢,短期内大脑和小脑需分别完成决策和控制任务[11] - CLA 模型协同:与控制小模型协同工作,通过拖动试教、现场探索和模拟仿真丰富运动控制数据库[12] - 发展趋势:云边端协同和异构化,云端大脑推理延迟高,需边缘设备补充算力;大脑由科技巨头提供解决方案,公司专注软件交易量最高环节[13][14] 英伟达项目 - 亮点:2025 年 4 月 7 日发布 Project DGX Desktop AI 硬件项目,GB10 芯片基于 Hopper 架构,FP4 精度下可提供 1 PFLOPS 算力,完善生态适配,降低使用门槛[15][16] 发展路径对比 - 与智能汽车类似:都经历从规则驱动到数据驱动的过程,人形机器人已达到落地基点,从 L0 到 L5 等级划分与自动驾驶技术类似[17] 特斯拉进展 - 自动驾驶:从 L3 到 L5 级别系统演变,FSD 实现从规则驱动到深度神经网络架构转变,今年系统代码量达 3,000 行,通过 CC2 让 AI 自主决策[18] - 人形机器人:Optimus 机器人通过数据投喂性能快速提升,计划 2025 年生产数千台,2026 年产量有望达 5 万至 10 万台,2027 年再增加十倍[19] 核心竞争力 - AI 能力是核心:决定人形机器人能力范围和产品力,硬件厂商短期竞争要素是生产成本,长期全行业降本是趋势[20] 其他公司布局 - 谷歌:打造平台并赋能生态系统,RT - X 模型自 2023 年 10 月推出后能力持续提升[21] - 英伟达:推中间件和芯片布局产业链,Orin 芯片有 800 Tensor Core AI 推理算力,发布通用基础模型和世界模型 CMOS[21] 智能汽车行业 - 发展趋势:2018 年以来大规模落地,2025 年港建有望小批量生产并大规模落地;特斯拉通过硬件降本提高渗透率,优化模式平衡成本与智能化[22] 计算机行业 - 相关公司:软通动力、索诺声、百度等具备大模型结合机器人及软件算法能力,工业基础领域已产生订单的企业值得关注[23] 其他重要但是可能被忽略的内容 - 截至 2024 年 6 月,FSD 领域的数据量已突破 16 亿英里,为后续积累足够动作数据提供基础[10] - 特斯拉 FSD 系统经历多次迭代,从使用超声波雷达到全摄像头方案,再到增配 4D 毫米波雷达与测试摄像头,C12 版本采用多端系统,对雷达传感器需求下降[18][22]
大模型点亮机器人大脑,运控解决方案公司崛起 - 软件篇