Workflow
误差累积
icon
搜索文档
Physical Intelligence最新发布的VLA模型,为什么是机器人通往规模化部署的拐点?|Jinqiu Select
锦秋集· 2025-11-18 19:13
核心技术框架:Recap - Physical Intelligence公司发布名为Recap的结构化强化学习框架,旨在解决机器人从“能做”到“能稳定做”的挑战 [2] - Recap框架构建一个前所未有的三段式训练管线:演示(demonstration)+ 纠正(correction)+ 机器人自主rollouts(RL on robot),三类数据在统一的强化学习体系中协同工作 [2] - 该框架首次展示如何利用纠正数据结合价值函数和优势来系统性地抵消机器人策略中最顽固的难题——误差累积 [3] 模型性能与突破 - 应用Recap训练出的π*0.6模型是一款拥有50亿参数的视觉语言动作模型,能够处理异构提示并吸收执行质量评价 [3] - 在最具挑战性的任务上,模型处理能力提升了一倍以上,失败率降低到二分之一甚至更低,达到可向商业部署过渡的性能门槛 [3][10] - 在真实场景中,π*0.6模型可实现连续一整天制作浓缩咖啡、数小时不间断折叠未见过的衣物、以及在工厂中稳定组装真实包装盒子的稳健水平 [10] - 在上述复杂任务上,π*0.6模型实现了超过90%的成功率 [25] 行业痛点与解决方案 - 当前机器人基础模型主要依赖人力收集的演示数据,存在人力成本高、策略水平限于人类、无法自我提升等局限性 [2][27] - 仅靠模仿学习的视觉语言动作模型在物理世界中会因细小失误累积形成复合错误,导致任务失败,这是实现高可靠性系统的关键障碍 [11] - Recap通过两种方式从不良经验数据中获取训练信号:一是由专家提供纠正指导,二是让机器人通过强化学习根据任务结果自行判断行为好坏 [13] - 强化学习中的核心挑战是信用分配问题,Recap通过引入价值函数作为“好坏评分器”,并利用优势来为动作打标签,从而解决此问题 [16] 训练方法与数据应用 - Recap的第一阶段是使用离线强化学习对模型进行预训练,不同于基础模型所采用的纯监督学习方案 [19] - 训练流程包括先通过任务相关示范对模型进行微调,再利用真实机器人上收集的额外数据继续做强化学习训练,结合修正指导和奖励反馈 [19] - 不同数据源服务于不同目的:专家演示用于定义新行为,辅导用于完善策略,自主经验则可能成为最大数据源用于完善行为直至超越人类表现 [27][28] 具体应用场景挑战 - 盒子组装任务的挑战在于完成复杂的物理操作流程并高频重复,同时需处理如纸箱黏连等边缘情况 [24] - 洗衣任务主要难在变化性和泛化能力,机器人需适应不同的初始状态和种类繁多的衣物,以及不同的折叠策略与材质特性 [24] - 制作浓缩咖啡饮品的难点在于长流程且环环相扣,要求模型具备高层语言策略以控制等待设备工作及后续清洁等时序性动作 [24]
让AI生成视频「又长又快」:Rolling Forcing实现分钟级实时生成
机器之心· 2025-11-05 08:18
研究背景与核心问题 - AI实时生成长时间、高质量且连贯的视频流是当前技术瓶颈,现有模型存在误差累积问题,导致视频延长时出现画面崩坏 [4] - 实时长视频生成面临“不可能三角”困境,即高质量、一致性和实时性三者难以兼顾 [8] - 核心挑战包括实时性要求模型顺序生成、消除误差累积与保持一致性难以两全、以及自回归逐帧生成的局限性 [10] 方法核心:Rolling Forcing 技术创新 - 提出“滚动窗口”思想,将视频生成从串行因果过程转变为滑动窗口内的并行协作过程,实现“边生成边修正” [12] - 通过滚动窗口联合降噪,在单次前向传播中同时处理多帧窗口,利用双向注意力机制进行帧间相互校准 [14] - 引入Attention Sink机制,将初始生成帧作为全局锚点持久化缓存,以维持视频长期视觉属性的一致性 [14] - 采用基于非重叠窗口的高效蒸馏训练算法,使训练过程更贴近推理真实场景,缓解曝光偏差 [14] 实验结果与性能表现 - 在参数量为1.3B的情况下,模型生成速度达到15.79 FPS,延迟为0.76秒,实现了实时生成 [17] - 关键质量漂移指标ΔDriftQuality低至0.01,远低于对比模型(如SkyReels-V2的5.59和MAGI-1的2.15),显著抑制了误差累积 [17] - 在多项评估指标上超越现有主流方法,如主体一致性得分92.80,背景一致性得分93.71,美学质量得分70.75 [17] - 定性结果显示,在长达2分钟的生成过程中能保持高度稳定的细节、色彩和运动连贯性 [20] 应用潜力与未来挑战 - 技术为交互式世界模型、神经游戏引擎和AR/VR等实时视频流应用提供了基础 [23] - 支持交互式视频流生成,用户可随时改变文本提示词,模型能动态调整后续内容 [21] - 未来挑战包括优化长程记忆机制以保存视频中段信息、提升训练效率以降低计算成本、以及针对VR/AR等场景优化交互延迟 [25]
大神Karpathy都投的AI实时视频生成模型:直播都能立即转,无限时长几乎零延迟
量子位· 2025-07-19 13:15
核心技术突破 - 推出全球首个零延迟无限实时视频生成模型MirageLSD,采用自定义实时流扩散模型Live-Stream Diffusion(LSD),攻克传统自回归视频模型中误差累积的核心难题[4][9][11] - 通过因果自回归结构和Diffusion Forcing技术实现逐帧生成时保持时间连贯性,支持无限时长视频生成[14][15] - 历史增强策略主动添加模拟伪影训练模型预判纠正能力,推理阶段明确告知历史帧可能不准确以持续纠错[16][17] - 改进Transformer架构搭配视觉编码器和位置编码优化,处理速度比前代模型快16倍,达每秒24帧[6][18] - 应用KV缓存技术和蒸馏策略减少延迟,动态输入系统支持超低延迟响应玩家指令[20][21][22] 产品性能优势 - 实现40毫秒以下延迟,支持直播/游戏/视频通话等多形式输入,无时长限制实时生成[5][6] - 前代产品Oasis已实现每秒20帧零延迟生成,MirageLSD性能提升至24帧/秒[26][28] - 集成帧级提示词处理机制,可即时解析键盘指令和自然语言,实现"抖衣换装"等实时交互效果[21][23] 公司发展动态 - Decart为2023年成立的加州AI初创公司,获AI专家Karpathy天使投资[7][25] - 2024年推出首款实时生成式AI开放世界模型Oasis,MirageLSD为最新迭代产品[26][28] - 计划定期升级模型功能,包括面部一致性/语音控制等模块[28] 应用场景展示 - 支持用扫帚/盒子等日常物品替代专业设备进行沉浸式直播[1] - 实时修改游戏画面风格满足个性化需求[2] - 全双工通信通道实现输入输出并行处理,消除数据传输延迟[22]