具身的大小脑路线都在这里了......

文章核心观点 - 具身智能是通往通用人工智能AGI的关键方向强调智能体与物理环境的交互与适应能力[1] - 具身智能的核心模块由大脑负责思考感知和小脑负责执行构成[1] - 技术演进经历了从低层感知到高层任务理解与泛化的持续发展当前进入VLA模型与强化学习、世界模型等融合的第四阶段[6][7][9] - 产业界正加速布局国内外科技巨头通过投资与合作推动技术落地双方进入关键竞赛阶段[3][5] 国内外相关领域产业分析 - 近2年多家具身明星团队从实验室走向商业和工业界例如星海图、银河通用、逐际动力等[3] - 国内华为于2024年底启动"全球具身智能产业创新中心" 与乐聚机器人、大族机器人等合作建设关键技术[5] - 京东自2025年5月以来连续投资智元机器人、千寻智能、逐际动力等公司强化物流与家庭服务场景能力[5] - 腾讯、蚂蚁集团、小米等科技巨头通过战略投资与合作加快构建产业生态[5] - 国外Tesla/Figure AI推进工业与物流机器人应用美国投资机构支持Wayve、Apptronik等公司落地自动驾驶与仓储机器人[5] - 国内企业以产业链投资与综合平台驱动落地国外巨头侧重基础模型、模拟环境与类人机器人原型研发[5] 具身智能的技术演进 - 第一阶段技术聚焦抓取位姿检测通过点云或图像预测末端执行器姿态但缺乏任务上下文和动作序列建模[6] - 第二阶段进入行为克隆阶段机器人借助专家演示数据学习端到端映射但存在泛化能力弱和误差累积问题[6] - 第三阶段自2023年兴起Diffusion Policy方法通过扩散模型生成整个动作轨迹提升策略稳定性与泛化能力[6] - 2024年进入Vision-Language-Action模型阶段融合视觉感知、语言理解与动作生成支持零样本或小样本快速泛化[6][7] - 第四阶段自2025年开始探索VLA模型与强化学习、世界模型、触觉感知等模块融合以弥补现有局限[9] - VLA+强化学习提升长时任务中的试错与自我改进能力 VLA+世界模型引入环境动态预测 VLA+触觉信息推动精细安全操作[11][12]