Workflow
系统一和系统二
icon
搜索文档
人形机器人的进化之路|2.5万字圆桌实录
腾讯研究院· 2025-08-04 17:23
具身智能技术突破 - 端到端大模型实现从L2到L4级跃迁 Physical Intelligence公司Π系列模型展示少样本学习能力[7][8] - 数据采集技术突破 主从臂式遥操/VR遥操/光学动捕等技术提升效率 AGL Bot World项目采集百万级真机数据[9] - 仿真技术显著提升 生成式模型使仿真效果从"非常假"到"视觉逼真" 物理交互仿真仍需加强[9] 技术瓶颈与挑战 - 开放环境任务执行能力弱 复杂技能/高精度场景下故障率高 存在安全风险[6] - 硬件成本与运维问题 单台机器人成本达数十万人民币 供电持久性不足[6] - 泛化能力存在局限 Physical Intelligence Π0模型在OOD场景成功率低于产业预期[10] 主流技术范式 - VLA(视觉-语言-动作)成为共识框架 但底层架构仍处探索期 存在自回归与Diffusion两条技术路线[32][33] - 系统1(直觉响应)与系统2(规划决策)协同方案 短程任务端到端解决 长程任务需规则介入[18][19] - 触觉模态(T)增强形成VTLA框架 触觉信号使响应延迟从2-3秒提升至毫秒级[15][16] 数据生态现状 - 真实数据与仿真数据存在鸿沟 刚体仿真准确度达80%-90% 柔性体/流体仿真仍困难[36][39] - 数据规模严重不足 具身数据量仅为语言模型的1/5000 需百亿级VLA token训练量[9][57] - 互联网视频数据利用受限 缺乏动作标签与多视角信息 需清洗与伪标签生成技术[42][43] 产业化路径 - 专业场景优先落地 工厂SOP场景成熟度高于开放家庭环境 规则系统现阶段更可靠[14][51] - 消费级产品渐进发展 扫地机器人+简易操作臂组合或成突破口 价格增幅需控在数百元内[50] - 中间件接口标准化需求迫切 需建立动作抽象层兼容不同机器人本体[26][27] 技术演进方向 - 世界模型与强化学习结合 数据驱动的物理规律模拟替代传统物理引擎[35][37] - 穿戴设备数据反哺 未来消费级设备可能意外积累海量具身数据[41] - 多模态持续扩展 红外/温度等非人类模态将增强环境感知能力[29][32]
深度|DeepMind机器人组负责人:过去人们一直将注意力集中在本体,但真正带来巨大飞跃的是机器人的心智进步
Z Potentials· 2025-06-03 11:56
机器人技术的演变与未来 - Google DeepMind专注于将大模型嵌入现实世界的机器人中 语言能力进步显著但具身智能发展相对缓慢 [3] - 传统机器人依赖预先编程完成特定任务 对环境和物体有大量假设 通常需人类远程操控 [4] - 2022年首次将LMS引入机器人 实现自然语言指令理解 2023年推出Robotics Transformers架构 开启数据驱动机器人学习新时代 [5] Gemini机器人的突破性能力 - 通过Gemini多模态理解能力 机器人可结合视觉输入和自然语言转化为操作指令 支持任意Gemini兼容语言 [5][16] - 展示灌篮等未经训练的任务执行能力 依靠对"篮球"概念的理解而非具体编程 动作决策仅需0 25秒 [9][10] - 具备手眼协调抓取能力 如抓香蕉时通过视觉学习而非上千次重复训练 独创性在于知识迁移应用 [11] 具身智能与通用性进展 - 区别于预设动作序列的机器人 新型机器人需实时推断任务含义 如理解"打包午餐"涉及的面包装袋和封口逻辑 [12] - 通过更换背景 移动物体 多语言指令等基准测试验证泛化能力 西班牙语指令可立即执行 [13] - 引入"边界框"识别技术 精确定位物体边缘和空间关系 实现类似人类的具身推理能力 [17][18] 系统架构设计创新 - 采用双模型架构:服务器端"慢系统"负责复杂推理 本地"快系统"处理即时反应 模仿人类快慢思考机制 [24][25] - 慢系统解析任务概念(如灌篮的篮球定位) 快系统执行轨迹并动态调整 应对环境突变 [25] - 双系统协同解决Moravec悖论 使机器人既能处理复杂推理又能快速响应可变物理环境 [26][34] 训练方法与数据获取 - 通过VR远程操作采集人类示范数据 如系鞋带任务仅需1000次示例 简单任务仅需十几个示例 [31][35][37] - 结合仿真环境与强化学习 DemoStart项目将现实所需训练数据减少100倍 如钥匙插入锁孔任务 [45][46] - 平衡仿真训练与现实迁移 可变形物体操作(如叠衣服)在现实更易学习 而稳定动作适合仿真 [48] 安全机制与社会应用 - 建立Asimov安全数据集 包含医院伤害案例和潜在危险情境 确保物理行为符合安全规范 [51][52] - 机器人可充当人类助手 如护士护理时负责物品搬运 保留人际互动中的人文关怀部分 [54] - 当前机器人能力相当于2岁儿童 需突破社交技能(读取肢体语言)和工作中的持续学习能力 [55] 行业前景展望 - 机器人技术可能成为继LLM后的下一个飞跃点 物理世界运作能力将增强AI模型对人类空间的理解 [57] - 关键突破窗口期为2-5年 需整合理解 灵巧控制和全身协调等技术模块 [56] - 心智进步(如Gemini的概念理解)比身体优化带来更大飞跃 改变机器人技术发展轨迹 [57]