Workflow
具身的大小脑路线都在这里了......
具身智能之心·2025-11-10 08:02

文章核心观点 - 具身智能是通往通用人工智能AGI的关键方向 强调智能体与物理环境的交互与适应能力[1] - 具身智能的核心模块由大脑负责思考感知和小脑负责执行构成[1] - 技术演进经历了从低层感知到高层任务理解与泛化的持续发展 当前进入VLA模型与强化学习、世界模型等融合的第四阶段[6][7][9] - 产业界正加速布局 国内外科技巨头通过投资与合作推动技术落地 双方进入关键竞赛阶段[3][5] 国内外相关领域产业分析 - 近2年多家具身明星团队从实验室走向商业和工业界 例如星海图、银河通用、逐际动力等[3] - 国内华为于2024年底启动"全球具身智能产业创新中心" 与乐聚机器人、大族机器人等合作建设关键技术[5] - 京东自2025年5月以来连续投资智元机器人、千寻智能、逐际动力等公司 强化物流与家庭服务场景能力[5] - 腾讯、蚂蚁集团、小米等科技巨头通过战略投资与合作加快构建产业生态[5] - 国外Tesla/Figure AI推进工业与物流机器人应用 美国投资机构支持Wayve、Apptronik等公司落地自动驾驶与仓储机器人[5] - 国内企业以产业链投资与综合平台驱动落地 国外巨头侧重基础模型、模拟环境与类人机器人原型研发[5] 具身智能的技术演进 - 第一阶段技术聚焦抓取位姿检测 通过点云或图像预测末端执行器姿态 但缺乏任务上下文和动作序列建模[6] - 第二阶段进入行为克隆阶段 机器人借助专家演示数据学习端到端映射 但存在泛化能力弱和误差累积问题[6] - 第三阶段自2023年兴起Diffusion Policy方法 通过扩散模型生成整个动作轨迹 提升策略稳定性与泛化能力[6] - 2024年进入Vision-Language-Action模型阶段 融合视觉感知、语言理解与动作生成 支持零样本或小样本快速泛化[6][7] - 第四阶段自2025年开始探索VLA模型与强化学习、世界模型、触觉感知等模块融合 以弥补现有局限[9] - VLA+强化学习提升长时任务中的试错与自我改进能力 VLA+世界模型引入环境动态预测 VLA+触觉信息推动精细安全操作[11][12]