具身智能概述 - 具身智能是通往通用人工智能的关键方向,强调智能体与物理环境的交互与适应,使其具备感知、理解、执行和反馈学习的能力 [1] - 具身智能的核心模块类比于人脑,分为负责思考感知与任务规划的“大脑”,以及负责高精度运动执行的“小脑” [1] 产业发展与竞争格局 - 近2年,星海图、银河通用、逐际动力等明星团队从实验室走向商业和工业界,推动技术进步 [3] - 国内大厂积极布局:华为于2024年底启动“全球具身智能产业创新中心”并与乐聚机器人、大族机器人等合作;京东自2025年5月以来连续投资智元机器人、千寻智能、逐际动力等公司;腾讯、蚂蚁集团、小米等也通过战略投资与合作加快构建产业生态 [5] - 国外企业侧重基础模型与原型研发:Tesla/Figure AI推进工业与物流机器人应用;美国投资机构支持Wayve、Apptronik等公司落地自动驾驶与仓储机器人 [5] - 国内外企业在该领域正加速进入关键竞赛阶段,国内以产业链投资与综合平台驱动落地,国外侧重基础模型、模拟环境与类人机器人原型研发 [5] 技术演进路径 - 第一阶段:聚焦抓取位姿检测,通过点云或图像预测末端执行器姿态,实现静态物体抓取,但策略多为单步决策,缺乏任务上下文和动作序列建模 [6] - 第二阶段:进入行为克隆阶段,机器人借助专家演示数据学习端到端映射,模仿人类完成复杂任务,但存在泛化能力弱、误差累积等问题 [6] - 第三阶段:2023年兴起的Diffusion Policy方法通过扩散模型生成整个动作轨迹,提升了策略的稳定性与泛化能力;2024年进入Vision-Language-Action模型阶段,代表性工作如OpenVLA、RT-2、PIO,融合视觉、语言与动作生成,支持零样本或小样本快速泛化,实现从“感知+控制”向“感知+推理+行动”的范式跃迁 [6][7] - 第四阶段:2025年以来,业界探索VLA模型与强化学习、世界模型、触觉感知等模块的融合,以弥补现有局限 [9] - VLA与强化学习结合提升机器人在长时任务中的试错与自我改进能力;VLA与世界模型结合引入环境动态预测,使机器人具备“想象未来”的能力;VLA与触觉信息融合拓展了“看+触”的多模态感知边界 [11][12] - 技术演进从“低层感知->中层策略->高层理解”链条上补齐能力短板,迈向通用任务和开放环境的智能体时代 [14] 市场应用与人才需求 - 技术发展推动了人形机器人、机械臂、四足机器人等产品在工业、家居、餐饮、医疗康复等领域的落地,相关产品和融资络绎不绝 [14] - 行业岗位呈现爆发式增长,导致许多人员转入具身智能领域进行研究 [14] - 从研究走向落地,对工程与系统能力需求激增,产业界更重视从“论文”到“部署”的工程能力 [17]
3个月,为大家梳理清了整个具身技术路线......
具身智能之心·2025-09-10 08:03