Workflow
DreamZero
icon
搜索文档
训练机器人方式对了吗?英伟达DreamZero双榜第一新反思
机器之心· 2026-03-03 17:08
DreamZero模型的技术突破与性能表现 - NVIDIA发布的世界-动作模型DreamZero在RoboArena和MolmoSpaces两个机器人基准测试上均排名第一[1] - 在RoboArena基准测试中,DreamZero以“dreaming_zebra”为名,获得1738分,领先第二名pi-0.5模型(1622分)[3] - MolmoSpaces是一个高保真物理模拟基准,尚未达到性能饱和,DreamZero在其中取得了优异表现[20] DreamZero的核心技术原理 - 核心思想是在同一个模型中联合预测未来视频和机器人动作,即 (x′,a)=f (x),让机器人在行动前先在模型内部“想象”未来[4][10][12] - 与传统的视觉-语言-动作模型不同,DreamZero通过预测未来画面提供了更丰富的监督信号,帮助模型学习环境演化规律[13] - 模型架构上,它借鉴了世界模型的思想,但关键改动在于联合建模动作生成与视频生成[10] 训练数据分布的关键影响 - 训练数据的分布对性能至关重要,DreamZero在AgiBot数据集上的表现明显优于pi-0.5模型,而AgiBot数据并未包含在pi-0.5的训练集中[23] - 分析指出,额外的1万小时机器人数据可能并不像想象中那样万能,关键在于是否在正确分布的数据上进行预训练[25] - 有研究显示,当模型在与目标任务分布高度一致的数据上预训练时,性能会出现大幅提升[25] 模型规模与架构优势 - DreamZero基于Wan2.1-I2V-14B-480P构建,是一个140亿参数的视频生成模型,而排名第二的pi-0.5基于30亿参数的PaliGemma,参数规模相差近5倍[28] - 消融实验表明,模型规模对性能起关键作用:使用14B参数和多样化数据时,任务进度达到50% ±6.3%,而5B参数模型在同样数据下进度仅为21% ±4.2%[33] - DreamZero最多可接收8帧上下文输入(一个短视频片段),而pi-0.5仅能输入单帧图像,多帧输入有助于捕捉运动趋势和理解物理规律,从而提升决策稳定性[29][30] 视频生成作为辅助监督的作用 - 在机器人领域的低数据环境下,视频生成目标充当了一种辅助损失,为模型施加了结构约束,迫使其学习内部世界模型[34] - 与稀疏的机器人动作信号相比,视频预测提供了更强、更密集的监督信号,这可能使模型更容易适应未直接训练过的多样化环境(如MolmoSpaces)[34]
腾讯研究院AI速递 20260210
腾讯研究院· 2026-02-10 00:03
生成式AI模型进展 - 神秘编程模型Pony Alpha在OpenRouter平台走红,无发布会无论文,但凭借超强编程能力引发开发者圈热议,有人连续编程3小时做出可玩的Pokemon Ruby [1] - 实测显示Pony Alpha能从零复刻《星露谷物语》,自主完成需求分析、架构设计到功能实现全流程,展现出系统级工程理解与长时间推理能力 [1] - 模型身世成谜,猜测可能是Anthropic Sonnet 5、DeepSeek-V4或智谱GLM-5,若为国内厂商作品,意味着国产模型在高阶编程领域已进入新阶段 [1] - 小红书正在内测AI视频剪辑应用OpenStoryline,采用"非线性编辑+对话驱动"模式,用户上传图片通过自然语言即可完成视频剪辑 [2] - 小红书OpenStoryline在技术上采用DeepSeek和Qwen 3开源模型,结合公司自有的dots.lm文本大模型和FireRedASR音频模型实现生态适配 [2] - 北京电影学院导演使用可灵3.0 Omni进行影视前期制作测试,生成的动态预览让摄影、美术、灯光部门在开机前就能统一视觉认知 [3] - 可灵3.0展现出电影级影调控制能力,能精准还原阴天散射光质感、雨滴折射光斑,并通过运镜节奏传达心理状态 [3] - 在多人物车内对话场景测试中,可灵3.0在角色一致性、音画同步、视线匹配方面表现出色,可直接作为排练素材和灯光方案参考 [3] - 前华为"天才少年"创立的Xmax AI发布全球首个虚实融合实时交互视频生成模型X1,实现毫秒级实时生成和手势交互 [4] - Xmax AI的X1模型核心玩法包括次元互动、世界滤镜、触控动图和表情捕手,用户上传角色图即可让其"脱屏而出"与现实互动 [4] - Xmax AI团队通过端到端流式重渲染架构将扩散采样速度提升百倍,并自主搭建虚实融合数据合成管线解决行业数据稀缺难题 [4] - Crypto.com创始人Kris Marszalek以7000万美元(约5亿人民币)购入AI.com域名,创下人类域名交易新纪录 [5] - AI.com定位为Personal AI Agent平台,承诺60秒内让普通人创建能帮忙发消息、操作App、交易股票的个人AI智能体 [5] - 此举呼应了Andrej Karpathy提出的"智能体工程"趋势,即人类正从直接编写代码转向协调和监督执行任务的AI智能体 [6] 前沿科技与机器人 - 英伟达GEAR实验室发布140亿参数世界动作模型DreamZero,机器人仅通过文本提示即可完成从未见过的任务,被称为机器人"GPT-2时刻" [7] - DreamZero模型通过联合预测视频与动作学习物理动力学,在新任务与新环境泛化上比最先进VLA提升超过2倍,实现7Hz实时闭环控制 [7] - 该模型仅需30分钟"玩耍数据"即可适配全新机器人并保持零样本泛化能力,代码已在GitHub开源 [7] - 智元机器人举办全球首个机器人晚会《机器人奇妙夜》,200多台机器人表演唱歌、跳舞、太极、小品、魔术等12个节目 [8] - 在晚会中,灵犀X2完成飞踢空翻、古典舞、醉拳等高难度动作,远征A2担任主持人,黄晓明携启元Q1亮相 [8] - 晚会本质是智元机器人产品展示,但节目编排用心,从音乐搭配到舞台设计完成度较高,展现了人形机器人的娱乐应用潜力 [8] 行业资本与战略动向 - 2026年Meta、亚马逊、微软、谷歌四家科技巨头AI基建支出预计超6000亿美元(约4.16万亿人民币),同比暴涨70%以上 [9] - 这一支出规模相当于瑞典或以色列全年GDP,占美国GDP约2.1%,仅次于1803年购买路易斯安那州 [9] - 苹果成为唯一"逆势而行"者,资本支出同比下降19%,选择与谷歌Gemini合作以低成本获取世界一流AI模型 [9] - 小红书近期成立Red&Live独立部门聚焦短视频与直播,试图以"视频化+AI"双引擎向3亿DAU目标冲刺,从图文社区向综合平台转型 [2]
英伟达世界模型再进化,一个模型驱动所有机器人!机器人的GPT时刻真正到来
机器之心· 2026-02-09 09:18
文章核心观点 - 驱动具身智能进入通用领域的核心挑战在于“跨具身迁移”能力,即世界模型在不同硬件平台和环境中的泛化能力[1] - 英伟达GEAR实验室提出的DreamZero世界动作模型通过联合预测未来世界状态与动作,有效解决了上述挑战,实现了在未见任务和新环境中的强泛化能力,并展示了高效的跨具身迁移和实时控制能力[2][8][30] 行业技术挑战与解决方案 - **行业核心问题**:当前大多数用于机器人或智能汽车的世界模型在固定硬件平台上训练,缺乏泛化能力,难以实现跨具身迁移,本质是学习“在这台机器该怎么动”而非“世界是如何运作的”[1] - **DreamZero的解决方案**:该模型是一种基于预训练视频扩散骨干网络构建的世界动作模型,通过联合预测视频与动作来学习物理动力学,以视频作为世界演化的稠密表示[8] - **模型关键能力**:能够从异构、非重复的机器人数据中高效学习多样化技能,不依赖重复示范,并实现了仅依赖纯视频数据即可完成跨具身学习以及对新机器人的少样本快速适配[8][13] 模型性能与实验结果 - **泛化性能显著提升**:在真实机器人实验中,相比最先进的视觉语言动作模型,DreamZero在新任务与新环境的泛化上实现了超过2倍的提升[8] - **跨具身迁移效率**:仅使用10–20分钟的人类或其他机器人纯视频示范,即可在未见任务上带来超过42%的性能提升;仅需30分钟的玩耍数据即可适配新机器人,实现零样本泛化[8][26] - **开箱即用评测**:在来自预训练分布但处于新环境的任务上,DreamZero取得62.2%的平均任务进度,相比最佳预训练VLA基线的27.4%提升超过2倍;在完全未出现的任务上仍达到39.5%的任务进度[18][21] - **公开数据集验证**:在DROID数据集上,DreamZero在未见动词任务上取得49%的任务进度,而最先进的VLA仅为25–32%[23] 模型架构与技术创新 - **模型规模**:DreamZero是一个拥有140亿参数的模型[3] - **架构设计**:模型接收视觉上下文、语言指令和本体感知状态三类输入,通过基于Flow Matching的自回归DiT主干网络联合预测未来的视频帧与动作[15] - **实时推理突破**:通过模型与系统层面的优化,使这个140亿参数的自回归视频扩散模型实现了7Hz的实时闭环控制,每个动作块推理延迟为150毫秒[8][28] - **解决的关键挑战**:有效应对了视频-动作对齐、架构设计选择以及视频扩散模型实时推理慢三大挑战[14][15] 应用与影响 - **交互式提示**:展示了交互式提示的实战应用,机器人能够根据人们直接提出的语言指令完成多种新任务[27] - **压力测试表现**:在从未训练过的任务和环境中(如扇汉堡、按电梯按钮、敲木琴等)持续探索,不断涌现出新能力[29] - **行业意义**:被实验室负责人称为机器人领域的“GPT-2时刻”,代表了基于视频世界模型的新一代机器人基础模型浪潮[4][30]