组合泛化
搜索文档
π0.7来了!涌现出组合泛化、跨本体迁移能力,VLA又行了?
机器之心· 2026-04-17 18:04
模型核心能力与突破 - 新模型π0.7展现出**组合泛化的初步迹象**,能够将训练中零散的技能和概念组合起来,以完成全新的、未在训练中直接演示过的任务,例如“用空气炸锅烤红薯” [3][4] - 模型具备**跨本体迁移能力**,能够控制从未训练过的、形态差异很大的机器人(如双臂UR5e系统)完成任务,其成功率与拥有平均**375小时**遥操作经验的专家在零样本操作时的成功率持平 [7] - 通过知识蒸馏,π0.7这一个通用模型学会了Recap算法优化的所有技巧,在叠衣服、做咖啡、折盒子等任务上的**成功率和速度都达到了之前专门训练的Recap专家模型水平,有时甚至更好**,实现了用一个通用模型替代多个任务专家模型 [9][12] 模型架构与规模 - π0.7基于π0.6的VLA架构与MEM记忆系统构建,新增多模态上下文条件调制 [24] - 模型包含以**Gemma3 4B**视觉语言模型初始化的VLM主干(含**0.4B**视觉编码器),以及**0.8B**参数的流匹配动作专家,**总参数约5B** [24] 成功关键因素 - 模型泛化能力强的核心在于**数据要杂,但提示要细**,汇集了几十种不同机器人的操作记录、人类演示视频及自主策略数据 [17][18] - 研究人员设计了一套**多样化的提示结构**,包含多模态信息,如文字描述、视觉子目标图片、期望任务时长、操作方式元数据等,以消除行为歧义并充分利用不同类型的数据源 [19][21][22] - 研究结论表明,**大规模多样数据 + 正确上下文**,就能自然涌现出惊人的组合泛化能力 [34] 应用场景与未来展望 - π0.7是一个通用模型,能够控制各种不同的机器人执行多种日常任务,如削蔬菜、用清洁剂擦玻璃门等 [15] - 未来,此类能力强、可操控的模型有望通过自身“思考”和利用提示遵循能力,解决更复杂、从未见过的任务,将语义推理转化为物理行动 [32] - 随着模型能力提升,**评估成为新的瓶颈**,如何定义泛化以及确定模型是否见过相关任务数据是未来需要发力的方向 [37]
ICLR 2026|滑铁卢大学联合可灵提出UniVideo:统一视频理解、生成、编辑多模态
机器之心· 2026-03-05 15:43
模型架构与核心创新 - 提出UniVideo模型,这是一个在统一框架下同时支持视频理解、生成与编辑的多模态生成模型,旨在突破当前多模态模型主要局限于图像领域的现状[2] - 模型采用双流架构,结合了多模态大语言模型(MLLM)的指令理解与推理能力,以及多模态扩散Transformer(MM-DiT)的高质量视觉生成能力[2][9] - 该设计无需额外的任务特定设计即可理解多模态指令、区分任务类型,并能够泛化到未见过的任务及新的任务组合,为视频生成与编辑提供了更强的扩展性[2][11] 统一多模态任务能力 - UniVideo将多达10种视频生成与编辑任务统一到单一的多模态指令范式中,包括多模态理解(I/V2T)、文本到图像/视频生成(T2I/T2V)、图像到视频生成(I2V)、图像/视频编辑(I2I/V2V)以及上下文图像/视频生成与编辑(Multi-ID2I等)[12][13][16][18][20][22] - 模型通过MLLM处理多模态指令并生成高层语义表示,同时利用MM-DiT在潜空间中进行条件视觉内容生成,实现了灵活的任务调度[13][14] 性能表现与实验结果 - 在定量评测中,UniVideo在多项评测指标上优于任务特定的基线方法,并在多数实验设置下达到或超过当前最优方法(SoTA)[24] - 在上下文插入(In Context Insert)任务中,UniVideo (Mask Free) 在CLIP-I指标上达到0.693,在Aesthetic指标上达到6.031,表现优于或接近Kling1.6、Pika2.2等模型[26] - 在上下文交换(In Context Swap)任务中,UniVideo (Mask Free) 的CLIP-I为0.728,Aesthetic为6.190,表现领先[26] - 在单参考生成(Single Reference Generation)任务中,UniVideo的人类评价得分(SC↑)为0.88,显著高于VACE的0.31、Kling1.6的0.68和Pika2.2的0.45[27] - 在多参考生成(Multi Reference (> 2) Generation)任务中,UniVideo的人类评价得分(SC↑)为0.81,同样领先于其他对比模型[27] 泛化能力验证 - 模型展现出对未见视频编辑指令的泛化能力,通过联合多任务训练,成功将图像编辑能力迁移至视频领域,实现了对自由形式(free-form)视频编辑指令的理解与执行[28] - 模型还展现出对新任务组合的泛化能力,即使在训练阶段未显式包含相关组合,仍能自然泛化,体现了统一多模态框架在组合泛化方面的显著优势[29][33] 行业影响与学术认可 - 该研究工作已被顶级学术会议ICLR 2026接收,并且代码与模型均已开源,这有助于推动行业在统一多模态视频生成与编辑方向上的技术进步与应用探索[3][5] - 该成果表明,统一多模态建模不仅可行,而且可能是一条比依赖多个孤立模型更具扩展性的技术发展路径[32][33]
大模型之后看机器人?Sergey Levine谈通用机器人规模化落地的真实瓶颈与破局方案
锦秋集· 2025-09-15 20:37
核心观点 - 机器人技术将在2030年实现家庭全自主管理 核心驱动力是"机器人数据飞轮"机制 即通过真实任务反馈实现持续迭代和自我强化 [1] - 机器人落地速度可能超越自动驾驶和大型语言模型 因物理世界反馈明确、容错率高且数据获取更容易 [2] - 技术路径基于"视觉-语言-动作"一体化基础模型 依托现有AI底座(如Gemma语言模型)快速开发应用 [3][15] - 硬件成本从数十万美元降至数千美元 降低创业门槛并加速市场验证 [7][33] - 通用机器人实现需突破"三难困境":毫秒级反应速度、长上下文记忆和大模型规模 解决方案依赖云端与本地智能结合 [6][27][28][29] 技术架构与能力 - Physical Intelligence的π0模型采用端到端Transformer架构 整合视觉编码器、语言推理和动作专家 实现感知-思考-行动闭环 [16][17] - 动作控制采用流匹配和扩散技术 生成连续高频指令驱动关节运动 精度远超离散文本符号 [17] - 模型展现"组合泛化"能力:例如自主清理障碍物、扶正容器、翻正衣物等未训练过的行为 [23][24] - 预训练语言模型提供先验知识(如物体识别、空间关系) 加速物理技能学习过程 [17][18] 发展路径与时间线 - 优先小范围真实场景应用 而非大规模模拟 通过精准数据反馈提高资源效率 [4] - 垂直领域机器人服务预计1-2年内落地 通用家庭管家级机器人需约5年 [10][11] - 模拟环境需结合真实世界数据基础 仅作为"排练厅"用于技能排演和反事实思考 [30][31][32] - 数据飞轮启动后 机器人能力将呈指数级提升 从单一任务跃迁至通用家务处理 [1][5][10] 行业比较优势 - 对比语言模型:机器人错误结果明确(如叠坏衣服) 易获得有效负反馈 而语言模型错误难以察觉 [12] - 对比自动驾驶:机器人容错空间大(如打碎盘子可接受) 且受益于现代感知系统和常识推理能力 [13][14] - 具身智能赋予目标导向的视觉过滤能力 从海量视频数据中高效提取关键特征 避免信息过载 [19][20][21] 硬件与经济影响 - 硬件成本十年内从40万美元(PR2机器人)降至3000美元 AI闭环控制降低对机械精度的依赖 [33] - 机器人将放大体力劳动者生产力 类似编程助手对软件工程师的增效作用 [11][34] - 地缘政治挑战在于关键硬件供应链集中 但机器人产业具备"自举"特性:用机器人制造机器人可形成正反馈循环 [35] 生态与竞争维度 - 竞争焦点从纯技术转向产业链、生态链和人才链综合布局 [7] - 教育体系需培养持续学习能力 以适应自动化转型带来的社会变革 [34]