Workflow
世界模型
icon
搜索文档
特斯拉已不是智驾行业“标准答案”
36氪· 2025-10-31 08:25
时隔两年多,特斯拉再次"开麦"。 与此前不同,这次特斯拉对于自家智能辅助驾驶算法进展的分享,并不是在AI Day的舞台上,而是在近 日举办的计算机视觉顶会ICCV(International Conference on Computer Vision)期间。 特斯拉自动驾驶副总裁阿肖克·埃鲁斯瓦米(Ashok Elluswamy)作为嘉宾,在大会上发表了主题演讲。 有可能为了接上2023年6月他们提出端到端架构之后的"闭麦",阿肖克从"特斯拉为何会选择端到 端?"开始分享,但经过多年实践,他们也发现仅通过端到端想要做好智能辅助驾驶,存在一些挑战。 图源Tesla AI 首先就是端到端系统需要解决从极高维到极低维的映射问题,这种映射往往是多对一,因此要保证输出 的正确性,训练难度可想而知。阿肖克的言外之意,或许是在强调端到端模型的"黑箱"问题。 基于特斯拉庞大的用户规模,每日可为他们产生相当于500年驾驶时长的数据,但其中多数是没有太多 价值的常规场景数据,对于算法的长远泛化没有太大帮助。 为了解决这两个问题,特斯拉在架构和算法层面做了一些优化和调整,比如在输出决策控制指令前,还 会输出OCC占用网络和3D高斯 ...
阿里新研究:一统VLA和世界模型
具身智能之心· 2025-10-31 08:04
WorldVLA框架概述 - 核心创新是将视觉语言动作模型与世界模型融合的统一框架,由阿里巴巴达摩院、湖畔实验室和浙江大学共同提出[2] - 该自回归动作世界模型通过结合动作与图像理解来预测未来图像,同时基于图像观测生成后续动作[5][6] - 实验结果显示其表现显著优于独立的动作模型与世界模型,体现二者相互增强效应[3] 技术架构设计 - 基于Chameleon模型初始化,采用三套独立分词器处理图像、文本和动作编码[9] - 图像分词器使用VQ-GAN模型,压缩比为16,码本大小8192:256×256图像生成256个token,512×512图像生成1024个token[9] - 动作分词器将连续机器人动作的每个维度离散化为256个区间,动作由7个token表示[9] - 创新设计替代注意力掩码,使动作生成仅依赖文本和视觉输入,屏蔽之前动作影响,实现并行生成多个动作[12][13] 性能基准测试 - 在离散动作模型对比中,WorldVLA(256×256)平均成功率79.1%,优于OpenVLA的76.5%[22] - 分辨率提升至512×512时性能进一步提高,平均成功率81.8%,显示分辨率与性能正相关[22] - 在连续动作模型对比中,WorldVLA未使用预训练即超越部分预训练模型,证明架构有效性[20][22] 世界模型对动作模型的增强 - 引入世界模型后动作模型成功率从62.8%提升至78.1%,特别是在长序列任务中从23.0%提升至52.4%[26][27] - 世界模型赋予系统前瞻推演能力,通过预判动作后果优化决策,案例显示能持续尝试直到操作成功[26][28] - 环境物理理解、动作风险评估和精确动作解析是三方面主要增强机制[15][16][17] 动作模型对世界模型的提升 - 在视频生成质量上,动作世界模型在50帧序列的FVD指标从718.6优化至674.1,PSNR从23.98提升至24.30[33] - 纯世界模型出现抽屉无法拉开、物体消失等缺陷,而动作世界模型生成连贯且符合物理规律的后续状态[33] - 动作模型通过增强视觉理解能力进一步支持世界模型的视觉生成[18] 行业专家观点 - 小米汽车高级研究总监陈龙认为VLA与世界模型可结合相互促进,分别负责"抽象思考"和"物理感知"[37] - VLA与世界模型结合被视为通往具身智能的重要路径[37]
世界模型有了开源基座Emu3.5,拿下多模态SOTA,性能超越Nano Banana
36氪· 2025-10-30 19:56
模型核心定位与能力概述 - 北京智源人工智能研究院发布开源原生多模态世界模型悟界·Emu3 5 定位为世界模型基座 在AI领域开辟全新赛道 [1][11] - 模型具备图、文、视频任务综合处理能力 包括画图改图、生成图文教程 视频任务增强了物理真实性 [1] - 核心能力体现在世界探索与具身操作 能像智能体一样理解长时序、空间一致的序列 模拟虚拟世界中的探索和操作 [12] 技术性能与基准测试表现 - 模型参数量为34B 基于Decoder-only Transformer框架 单一模型可完成视觉叙事、视觉引导、图像编辑、世界探索、具身操作等多种任务 [17] - 在多项权威基准测试中 性能媲美甚至超越Gemini-2 5-Flash-Image 在文本渲染和多模态交错生成任务上优势显著 [9] - 采用离散扩散适配技术 将图像推理速度提升近20倍 解决了自回归模型生成图像慢的问题 [26] 关键技术创新点 - 模型将所有任务统一为下一状态预测任务 通过强大的多模态分词器将文本和图像转换为离散Token序列 [17] - 在超过10万亿Token的多模态数据上进行预训练 主力数据为互联网视频的连续帧和转录文本 使其沉浸式学习时空连续性和因果关系 [18] - 视觉分词器基于IBQ框架 拥有13万视觉词汇表 并集成扩散解码器 能实现高达2K分辨率的高保真图像重建 [19] - 预训练后经过大规模有监督微调和大规模多模态强化学习 使用复杂奖励系统进行优化 [25] 应用场景与功能演示 - 能够以第一人称视角构建动态3D虚拟世界 用户移动和转身时能动态构建下一步场景 全程保持空间一致性 [3][6] - 擅长提供具有连贯性和指导意义的视觉内容 例如根据狐狸草图指令一步步生成从草图到最终手办形态的完整视觉流程 完美保留核心特征和神态 [13] - 支持生成分步教学指南 如手把手教做菜、画画、种菜 并能进行多图、多轮指令的复杂图像编辑 主体一致性和风格保持能力达业界顶尖水平 [14][15] - 演示案例包括高精度操作如一句话消除手写痕迹 以及复杂任务如按照多步指令整理桌面 [1][22][24]
世界模型有了开源基座Emu3.5!拿下多模态SOTA,性能超越Nano Banana
量子位· 2025-10-30 18:31
模型概述 - 北京智源人工智能研究院发布最新开源原生多模态世界模型悟界·Emu3.5 [1] - 模型能够一网打尽图、文、视频任务,具备画图改图、生成图文教程、增强视频物理真实性等功能 [2] - 模型展现出高精度操作能力,例如一句话消除手写痕迹和第一视角漫游动态3D世界 [3] 行业背景与竞争格局 - AI迭代速度正在刷新所有人的认知,文生视频赛道几乎每月都有新技术出现 [5][6] - AI视频的逼真度和时长持续提升,但当前竞争焦点已从“像不像”转向“懂不懂”物理世界规律 [7][8] - 行业需解决的核心问题是模型是否理解物体移动后的空间变化、转身后场景的持续性等动态逻辑 [9] 核心技术能力 - Emu3.5生成作品具有极强连贯性和逻辑性,显著增强模拟动态物理世界的能力 [11] - 模型支持第一人称视角进入虚拟世界,动态构建移动或转身后的场景,全程保持空间一致性 [11] - 能够进行高精度可控图像编辑,如根据指令将草图转化为3D模型并完成3D打印、上色等完整流程 [16][26] - 支持多图多轮指令的复杂图像编辑,主体一致性和风格保持能力达业界顶尖水平 [29] - 模型在文本渲染和多模态交错生成任务上表现亮眼,性能媲美甚至超越Gemini-2.5-Flash-Image [18] 技术架构与创新 - Emu3.5参数量为34B,基于Decoder-only Transformer框架,统一所有任务为下一状态预测 [31] - 使用多模态分词器将文本和图像转换为离散Token序列,实现多任务处理 [31] - 在超过10万亿Token的多模态数据上预训练,主力数据为互联网视频的连续帧和转录文本 [32] - 视觉分词器基于IBQ框架,拥有13万视觉词汇表,集成扩散解码器支持2K分辨率高保真图像重建 [33] - 采用有监督微调和大规模多模态强化学习进行优化,使用复杂奖励系统提升模型质量 [34] - 通过离散扩散适配技术将推理速度提升近20倍,解决自回归模型生成图像慢的问题 [35] 应用场景与定位 - 模型定位为世界模型基座,开辟AI领域全新赛道,致力于构建理解物理规律的智能基座 [20][21] - 核心能力包括理解长时序、空间一致序列,模拟虚拟世界中的探索和操作,如逐步完成“整理桌面”任务 [23][24][28] - 应用场景覆盖生成视觉故事、第一视角参观场景(如客厅、火星开卡丁车等) [12][14][18] - 开源策略允许全球开发者直接使用模型,赋能千行百业实际应用,想象空间巨大 [36][37]
清华陈建宇团队× 斯坦福Chelsea课题组推出 Ctrl-World 可控世界模型,让机器人在想象中迭代
机器人大讲堂· 2025-10-30 18:18
研究背景与动机 - 当前视觉-语言-动作模型在开放世界面临策略评估成本高和策略迭代数据不足两大难题[7] - 真实测试中机械臂故障率约5%-8%,单轮测试物体损耗成本超千元,评估周期常达数天[8] - 在含95k轨迹的DROID数据集上训练的主流模型面对陌生指令时成功率仅38.7%,标注100条高质量轨迹需20小时成本超万元[8] - 传统世界模型存在单视角幻觉、动作控制不精细、长时一致性差三大痛点,10秒预演后偏差失去参考价值[8] 技术方案创新 - Ctrl-World通过多视角联合预测解决视野盲区,结合第三人称与腕部视图实现跨视角空间关系对齐[11][13] - 帧级动作控制将机器人动作序列转化为姿态参数,通过交叉注意力实现厘米级精准操控,PSNR达23.56[15][16] - 姿态条件记忆检索机制通过稀疏采样和姿态锚定检索,使20秒长时预演FVD指标仅97.4,远低于基线模型156.4[17][19] - 模型使用零真机数据,通过三大创新将被动视频生成转化为可与VLA策略闭环交互的模拟器[1][9] 实验验证结果 - 在256个随机剪辑测试中,Ctrl-World的PSNR达23.56,SSIM达0.828,LPIPS仅0.091,全面领先基线模型[21] - 虚拟预演的指令跟随率与真实世界相关系数达0.87,任务成功率相关系数达0.81,评估周期从周级缩短至小时级[24] - 通过400条虚拟轨迹微调后,策略在空间理解任务成功率从28.75%升至87.5%,新物体抓取成功率从25%升至75%[26] - 综合陌生场景任务成功率从38.7%提升至83.4%,平均改进幅度达44.7%,成本仅为传统方法的1/20[1][26] 应用前景与行业影响 - 该技术可降低工业机械臂调试成本,单生产线调试周期从1周缩至1天,快速适配个性化任务[28] - 模型未来计划结合强化学习与扩大数据集,提升对厨房油污、户外光照等复杂场景的适配能力[27] - 成果重塑机器人训练底层逻辑,从物理资源消耗转向虚拟预演闭环,推动人形机器人走向开放世界[28]
让机器人在“想象”中学习世界的模型来了!PI联创课题组&清华陈建宇团队联合出品
量子位· 2025-10-30 16:39
文章核心观点 - 斯坦福与清华大学团队联合提出可控生成世界模型Ctrl-World,该模型通过让机器人在虚拟“想象空间”中进行任务预演和策略迭代,显著提升了机器人策略在下游任务中的性能,成功率从38.7%提升至83.4%,平均改进幅度达44.7% [4][5][49] - 该模型解决了机器人训练在真实世界中面临的高成本、低效率以及数据稀缺的核心难题,通过三项关键技术实现了高保真、可控制、长连贯的虚拟预演,将策略评估周期从“周级”缩短至“小时级” [7][12][44] - 此项技术构建了“虚拟预演-评估-优化-真实部署”的新闭环,有望成为机器人的通用训练平台,对工业自动化和家庭服务机器人等领域具有重大应用价值,可大幅降低调试成本并加速适配个性化任务 [53][55][56][57] 研究背景与动因 - 当前视觉-语言-动作模型在开放世界场景下面临两大核心难题:策略评估成本高昂,真实测试存在机械臂碰撞(故障率约5%-8%)、物体损坏(单轮测试成本超千元)等问题,评估周期长达数天;策略迭代困难,传统改进方式依赖人类专家标注新数据,标注100条高质量轨迹需资深工程师20小时,成本超万元,无法覆盖所有场景 [7][8][9] - 传统世界模型存在三大关键局限,阻碍其支持策略在环推演:单视角预测导致部分可观测性问题和高幻觉率;动作控制不精细,无法反映细微动作差异;长时一致性差,预测10秒后即出现显著时序漂移,失去参考价值 [10][11] 模型核心技术突破 - **多视角联合预测**:模型创新性地联合生成第三方全局视角和腕部第一视角,通过空间Transformer实现跨视角空间关系对齐,解决了视野盲区问题,使物体交互幻觉率降低;定量数据显示其峰值信噪比达23.56,结构相似性达0.828,远超传统单视角模型 [16][17][20][21][23] - **帧级动作控制**:通过将机器人动作序列转化为机械臂姿态参数,并利用帧级交叉注意力模块实现每一帧视觉预测与对应姿态的严格绑定,实现了厘米级的精准操控;消融实验显示,移除该功能后模型PSNR从23.56降至21.20 [24][25][29][30] - **姿态条件记忆检索**:引入记忆检索机制,通过稀疏采样历史帧并以姿态信息进行锚定,有效解决了长时预演的时序漂移问题;该机制使模型能稳定生成20秒以上的连贯轨迹,时序一致性指标FVD低至97.4,远优于基线模型 [31][32][35][36] 实验验证与性能表现 - **生成质量**:在10秒长轨迹生成测试中,Ctrl-World在多项核心指标上全面领先基线模型,包括PSNR(23.56)、SSIM(0.828)、LPIPS(0.091)和FVD(97.4),证明其虚拟画面与真实场景的高度契合 [38][39][40][46] - **策略评估准确性**:虚拟预演的“指令跟随率”与真实世界的相关系数达0.87,“任务成功率”与真实世界的相关系数达0.81,表明无需启动真实机器人即可准确判断策略性能 [41][42][43] - **策略优化效果**:通过在虚拟空间中生成400条陌生任务轨迹并筛选出25-50条成功轨迹用于微调,使基础策略π₀.₅在多项任务上成功率大幅提升,例如空间理解任务从28.75%升至87.5%,新物体抓取任务从25%升至75%,整体成功率从38.7%提升至83.4% [45][48][49][54] 行业应用与未来展望 - 该技术对工业场景价值显著,可将单条生产线机械臂调试周期从1周缩短至1天,大幅降低调试成本;对家庭服务机器人,则能快速适配操作异形水杯、整理不规则衣物等个性化任务 [56][57] - 未来研究方向包括将视频生成与强化学习结合以实现自主探索,以及扩大训练数据集以提升对复杂物理场景和极端环境的适配能力,推动人形机器人更快走向开放世界 [51][52][53]
「宇树」向左,「智元」向右,「乐聚」蓄势而上
Robot猎场备忘录· 2025-10-30 11:02
文章核心观点 - 国内人形机器人领域三大头部公司智元机器人、宇树科技和乐聚机器人正加速IPO进程,展现出不同的技术路线、生态打法和商业化进展 [2][5] - 行业共识是人形机器人赛道具有长周期和广阔前景,但当前技术尚未实现实质性突破,有价值的商业化仍处于初期阶段 [15] - 头部公司争相上市可能有助于市场发展,但也存在加速行业泡沫的风险,实现真正的商业闭环是长期立足的关键 [15] 技术路线 - 国内人形机器人公司可分为两大技术阵营:以宇树科技为代表的注重运动能力的“硬件派”,以及以智元机器人为代表的具备强大AI能力的“软件派” [5] - 乐聚机器人等老牌公司则跨越周期,率先实现软硬件全栈自研,具备人形机器人领域全栈式技术能力 [5] - 具身智能大模型被视为人形机器人商业化的核心壁垒,自研机器人大模型构建技术闭环对掌握主动权至关重要 [6] - 宇树科技正加速弥补AI短板,于9月15日开源世界模型-动作架构UnifoLM-WMA-0 [9] - 智元机器人已发布具身基座大模型智元启元大模型GO并开源GO-1,以及世界模型开源平台GE [9] 生态打法 - 宇树科技采用“自建产能+供应链优化”模式,将其在四足机器人上的量产经验和供应链管理能力复用于人形机器人 [7] - 智元机器人和乐聚机器人通过“合资、投资、合作”的生态打法实现产业链全方位布局,但乐聚的扩张速度更为稳妥 [7] - 乐聚机器人通过上游投资泉智博、立聚动力等企业,中游引入东方精工、拓普集团等制造业上市公司并成立合资公司,下游与场景方组建合资公司,形成深度协同的技术创新闭环和供应链保障 [7] 商业化进展 - 人形机器人落地场景包括ToB、ToC和ToG,市场规模排序为ToC > ToB >> ToG,落地难度同样如此 [8] - 最优落地场景进阶路径为:短期以ToB科研、教育、导览等场景为主实现现金流,中期优先落地ToB工业柔性装配场景,远期开拓ToC市场 [8] - 宇树科技公司定位为硬件“卖铲人”,其产品价格持续下探,客户群体优先选择教育、科研及展示表演场景 [10] - 智元机器人采用多产品线、多商业化场景落地路线,但目前双足人形机器人落地更多侧重于文娱商演、数采训练、科研教育场景 [10] - 乐聚机器人凭借“科研商服先行,工业制造深耕、多场景渗透”路径,率先实现全尺寸人形机器人“夸父”在工业制造、商业服务、科研院校三大场景成功落地,并与40余家生态伙伴展开产业应用探索 [12][14]
具身智能领域最新世界模型综述:250篇paper带大家梳理主流框架与任务
具身智能之心· 2025-10-30 08:03
文章核心观点 - 世界模型是具身智能体的“内部模拟器”,负责捕捉环境动态,支持智能体对未来状态进行推理和行动规划 [1] - 随着生成模型的发展,世界模型研究日趋繁荣但缺乏统一梳理,该综述首次提出一个基于功能、时序建模和空间表征的三轴分类法,为领域建立清晰框架 [2][6] 三轴分类法 - **功能定位轴**:区分决策耦合型(为特定决策任务优化)与通用目的型(构建任务无关的通用模拟器) [6] - **时序建模轴**:区分顺序序列模拟(自回归方式逐步建模)和整体差分预测(并行捕捉未来时间步映射关系) [6] - **空间表征轴**:涵盖四种主流空间状态建模策略,包括全局潜变量、Token特征序列、空间潜在网格、分解式渲染 [6] 功能定位分析 - **决策耦合型世界模型**:属于任务驱动型,与策略优化紧密耦合,在模型“想象”的轨迹中直接优化策略,代表模型如Dreamer系列,优势在于任务表现通常出色,但学习的表征可能过度贴合任务而难以泛化 [15] - **通用目的型世界模型**:定位为任务无关的环境模拟器,着眼于对环境动态的广泛预测和高保真生成,优势在于泛化能力强且表示能力丰富,但计算复杂度高,实时推理成本较高 [16] 时序建模分析 - **顺序推理型**:逐步模拟未来世界演化的时间建模方式,便于理解和规划,典型架构包括RNN、Mamba、自回归方式以及思维链和LLM支持的目标分解,优势是时序因果一致,适合闭环控制,但长时预测需多次迭代,容易误差累计且并行性较差 [20] - **全局预测型**:并行地预测整段未来序列的时间建模方式,常见做法包括掩码/JEPA的特征预测与并行扩散视频生成,优势是降低误差累积,并行计算效率高且便于添加全局约束,但闭环交互性较弱,局部动力学细节不足 [23] 空间表征方式 - **全局潜变量**:将场景/世界状态压缩为一个低维变量并在该紧凑表示上进行动力学建模,优势是计算/时延友好,适配实时控制且模型/内存开销小,但细粒度时空信息可能损失 [28] - **Token特征序列**:将世界状态表示为一组离散token的特征序列,便于建模token间依赖关系,优势是与注意力机制耦合,能细粒度表示复杂场景和多模态信息,但需要大量数据训练且常依赖大参数量模型,推理开销高 [29] - **空间潜在网格**:将空间信息注入场景或将场景编码到空间网格中,是自动驾驶领域主流方式,优势是保留空间局部拓扑,易于多视角融合和地图生成,但表示规模大,分辨率受限且对非结构化环境适应性差 [34] - **分解式渲染表示**:将场景拆解为一组可渲染基本要素,再通过渲染流程或生成模型构建观察空间,优势是能生成视角一致的高保真图像并支持物体级别操作,但对动态场景扩展性差,建模和推理成本高,难以实时更新场景中变化部分 [35] 数据资源与评价指标 - **数据资源分类**:具身智能数据资源可划分为四类,包括仿真平台(如MuJoCo、CARLA、Habitat)、交互式基准(如DeepMind Control套件、Atari游戏、Meta-World)、离线数据集(如RT-1、Open X-Embodiment、nuScenes)以及真实机器人平台(如Franka Emika机械臂、Unitree Go1四足机器人) [37][39] - **评价指标层级**:针对世界模型的不同侧重有三层抽象水平评价指标,包括像素级生成质量(如FID、FVD、SSIM、PSNR)、状态/语义一致性(如mIoU、mAP、Displacement Error)以及任务绩效指标(如累积奖励、成功率、碰撞率),新近评测倾向于设计物理合规性、因果一致性等指标弥补传统不足 [40] 性能对比 - **视频生成性能**:在nuScenes数据集上的视频生成性能对比显示,不同方法的FID和FVD指标存在差异,例如Vista方法的FID为6.9,FVD为89.4,而DrivePhysica方法的FID为4.0,FVD为38.1 [41] - **4D占据预测性能**:在Occ3D-nuScenes基准上的4D占据预测性能对比中,DTT-O方法在mIoU指标上1秒预测达到37.69%,2秒预测达到29.77%,3秒预测达到25.10%,平均为30.85% [41] - **控制任务性能**:在连续控制任务中,Dreamer方法在5M训练步数下于Reacher Easy任务获得935的回合回报,Cheetah Run任务获得86?的回合回报,Finger Spin任务获得499的回报,Walker Walk任务获得962的回报,平均为823 [42] - **机器人操作成功率**:在机器人操作任务中,VidMan方法在Stack Blocks任务成功率为48%,Close Jar为88%,Open Drawer为94%,Sweep to Dustpan为?%,Slide Block为98%,平均成功率为67% [43] - **自动驾驶规划性能**:在nuScenes验证集上的开环规划性能显示,SSR方法在1秒、2秒、3秒预测的L2距离分别为0.24m、0.65m、1.36m,平均为0.75m,碰撞率分别为0.00%、0.10%、0.36%,平均为0.15% [43] 挑战与展望 - **数据与评估挑战**:领域缺乏统一的大规模多模态数据集,评估指标往往偏重像素重构误差,忽视了物理合理性、动态一致性和因果关系,未来需要构建跨领域数据集和测试基准 [46] - **计算效率与实时性**:先进世界模型推理开销巨大,难以满足实时控制要求,未来需要在不过度损失性能前提下提高模型推理速度和效率,可能借助模型压缩、稀疏计算及更高效的时序建模方法 [46] - **建模策略与平衡**:在序列自回归和全局并行两种时间建模、不同空间表示之间寻求最佳折中依旧困难,结合两者优点或是一条有效出路,例如利用分层模型或引入显式记忆和层次规划 [46]
阿里新研究:统一了VLA和世界模型
36氪· 2025-10-29 18:32
如果说视觉让AI看见世界,动作让AI改变世界,那么—— WorldVLA正在让AI理解世界。 顾名思义,WorldVLA是一个将视觉语言动作模型(VLA)与世界模型相融合的统一框架,由阿里巴巴达摩院、湖畔实验室和浙江大学共同提出。 在该框架下, 世界模型通过结合对动作与图像的理解来预测未来图像,旨在学习环境的潜在物理规律,以提升动作生成的准确性; 动作模型则基于图像观测生成后续动作,不仅有助于视觉理解,还反向促进世界模型的视觉生成能力。 实验结果表明,WorldVLA的表现显著优于独立的动作模型与世界模型,充分体现了二者之间的相互增强效应。 | Model Type | Discrete | Continous | Input | Output | | --- | --- | --- | --- | --- | | Action Model | OpenVLA (Kim et al., 2024) | TO (Black et al., 2024) | T + V | A | | Video Prediction Model | MAGVIT (Yu et al., 2023) | SVD (Blattman ...
阿里新研究:统一了VLA和世界模型
量子位· 2025-10-29 17:30
技术框架与核心创新 - 提出WorldVLA,一个将视觉语言动作模型与世界模型相融合的统一自回归动作世界模型框架 [1][4] - 框架旨在解决VLA模型仅将动作作为输出而缺乏深度理解,以及世界模型无法直接生成动作的应用局限 [6] - 采用三套独立分词器对图像、文本和动作进行编码,图像分词器压缩比为16,码本大小为8192,256x256图像生成256个token,512x512图像生成1024个token [8] - 创新性地为动作生成设计了替代注意力掩码,使自回归框架能并行生成多个动作,避免早期错误传递 [11][12] 性能优势与实验结果 - 实验结果表明WorldVLA表现显著优于独立的动作模型与世界模型,体现了二者相互增强效应 [2] - 在未使用预训练的情况下,WorldVLA在基准测试中平均成功率优于离散化OpenVLA模型(256x256分辨率79.1% vs 76.5%,512x512分辨率81.8% vs 76.5%) [19][21] - 模型性能与图像分辨率呈正相关,512x512分辨率相比256x256分辨率带来显著提升(平均成功率从79.1%提升至81.8%) [21][22] - 引入世界模型数据训练后,动作模型在目标、物体、空间和长序列任务上的成功率从基线62.8%提升至78.1% [25] 协同效应与能力增强 - 世界模型通过预测未来图像学习环境物理规律,增强动作模型在精细操作任务中的能力 [14][25] - 动作模型通过增强视觉理解能力,反向支持世界模型的视觉生成质量,在生成50帧长视频时FVD指标从718.6改善至674.1 [17][31][32] - 动作世界模型在复杂场景生成中表现优于纯世界模型,能生成连贯且符合物理规律的后续状态 [32]