Workflow
视频生成模型
icon
搜索文档
PhysicalAgent:迈向通用认知机器人的基础世界模型框架
具身智能之心· 2025-09-22 08:03
核心观点 - 研究团队提出PhysicalAgent框架,旨在解决机器人操控领域的两大瓶颈:主流视觉-语言-动作模型依赖任务与平台特定微调导致跨平台鲁棒性差,以及基于世界模型的方法通用性受限 [2] - 该框架的核心思路是使用基础模型承担感知与推理的重任,仅保留轻量级机器人适配层负责执行,以实现跨形态、跨任务的通用操控,并通过迭代修正提升执行鲁棒性 [2] 架构设计:泛化性的核心逻辑 - 框架设计原则是感知与推理模块不绑定特定机器人形态,仅需为不同机器人训练轻量级骨骼检测模型,此设计计算开销小且数据需求低 [3] - 视频生成模型具有天然优势,因其预训练了海量多模态数据,隐含对物理过程的理解,且支持API调用无需本地训练即可快速集成 [5] - 视频生成模型能通过文本指令生成执行过程的视觉想象,与人类思考动作的方式一致,无需了解机器人内部结构 [5] - 同一感知-推理流程能为三种不同形态的机器人生成不同操控任务的视频,无需针对特定机器人重新训练,证明了架构的跨形态适配能力 [5] 视觉语言模型的作用 - 视觉语言模型作为框架的认知核心,通过多次调用实现指令-环境-执行的接地,而非单次规划 [6] - 其具体作用分为四步:接收指令与场景图像后分解高level任务为原子子任务;为每个子任务生成带约束的文本提示;每次执行后对比图像判断子任务完成情况并输出决策;框架不绑定特定视觉语言模型,具有模型无关性 [10] 扩散基世界模型:动作生成的新范式 - 核心创新是将动作生成为条件视频合成,而非直接学习控制策略 [6] - 使用现成的图像-视频基础模型,输入机器人当前相机帧与文本指令,生成物理合理的短动作视频 [10] - 对比现有方法,该框架直接使用通用图像-视频模型,无需为特定机器人-场景对训练模型,大幅降低泛化门槛 [10] - 具有三大优势:降低新机器人部署成本;可快速迭代替换更优模型;生成视频可被人类检查以提升安全性 [10] 机器人适配层:从视频到电机指令的落地 - 生成的动作视频需转化为机器人能执行的电机指令,此部分是框架中唯一需机器人特定适配的部分 [6] - 流程包括用微调后的模型从合成视频每帧中提取机器人关节关键点,形成40维特征向量/帧;再用多输出回归器将特征映射为低level电机指令 [11] - 每个新机器人仅需约1000个样本,30分钟即可收集完成训练数据 [11] 实验验证:效果与泛化性 - 实验分为两类,分别验证跨形态/感知模态的泛化性与迭代执行的鲁棒性 [8] - 在形态与感知模态研究中,框架的成功率显著优于基线,验证了扩散视频生成思路的有效性;平台对性能无显著影响,说明框架跨形态泛化能力稳定 [14] - 在物理机器人的迭代执行实验中,双臂UR3和Unitree G1人形机器人的最终成功率均达到80%,首次尝试成功率分别为30%和20%,成功所需平均迭代次数分别为2.25次和2.75次 [13][16] - 迭代修正能有效弥补首次执行的不足,前3次迭代后未完成任务比例骤降,是提升鲁棒性的核心 [16]
宇树科技王兴兴发“暴论”,对智驾有什么参考?
36氪· 2025-08-12 07:58
核心观点 - 宇树科技CEO王兴兴认为具身智能AI模型是未来2-5年核心发展方向,质疑当前VLA模型架构的实用性,并提出视频生成模型和端到端模型作为替代方向 [1][3][10][13] - 行业技术瓶颈在于模型架构不完善、数据利用不足及RL缩放定律缺失,而非硬件性能限制 [4][6][8][12] - 未来需聚焦端到端模型、低成本硬件批量制造及分布式算力网络三大方向 [16] 技术瓶颈分析 - 当前机器人硬件(包括灵巧手和整机)已基本满足需求,核心瓶颈在于具身智能AI大模型未成熟 [4] - 行业过度关注数据而忽视模型架构问题,导致模型缺乏统一性、泛用性且数据利用不充分 [6][8] - VLA模型被评价为"相对傻瓜式的架构",对数据质量依赖过高且适应性不足,VLA+RL组合优化效果有限 [10] - RL缩放定律缺失导致机器人学习新任务需从零开始训练,训练效率低下,理想状态应基于旧有基础快速学习新技能 [12] 新兴技术方向 - 视频生成模型路线比VLA模型更具潜力,可通过生成动作序列视频直接指导实体机器人执行指令 [13] - 当前视频生成模型存在GPU消耗过高问题,机器人应用无需高精度视频,需解决能耗与实用性的矛盾 [15] 未来技术重心 - 需研发统一端到端智能机器人大模型,实现基于既有训练基础快速学习新技能 [16] - 硬件需实现低成本、高寿命及超大批量制造以支撑数百万/千万台量级应用 [16] - 构建分布式算力网络(如工厂服务器集群或区域算力集群),解决机器人本体峰值功耗仅100瓦的算力限制 [16] 行业应用预期 - 当机器人具备大规模作业能力时,可能通过创造价值直接缴税实现"免费"状态,该进程预计2-10年内实现 [17] - 当前智能汽车行业普遍采用VLA+RL或世界模型路线,与具身智能开发逻辑存在差异,技术路线需实战验证 [17]