Wan 2.2 - 财报，业绩电话会，研报，新闻

Wan 2.2

搜索文档

CVPR 2026 | AI寒武纪时刻？字节世界模型新作，仅靠视觉学习真实世界知识

机器之心· 2026-03-07 19:20

模型概述与核心突破 - 豆包大模型团队与北京交通大学联合提出通用视觉世界模型VideoWorld 2，其核心观点是首次在业界实现无需依赖语言模型，仅通过浏览视频数据即可认知和掌握真实世界中的复杂知识[2][4] - 该模型旨在解决现有AI（如Sora 2、Veo 3、Wan 2.2）难以从真实世界视频中学习知识的挑战，特别是难以捕捉复杂的动态变化、空间关系及物理规律等非语言化知识[2][7] - VideoWorld 2仅通过“视觉信息”学习，使机器掌握推理、规划和决策等复杂能力，其论文已入选顶级会议CVPR 2026[2][4][6] 技术原理与架构创新 - 模型成功的关键在于提出了一种动态增强型潜动态模型（dLDM），其核心创新是将真实世界视频中的复杂外观与任务核心动作进行解耦，防止模型过拟合到相机抖动、光影变化等无关视觉细节[4][13][16] - dLDM架构包含一个MAGVITv2风格的编码器-解码器结构以及一个预训练的视频扩散模型（VDM），编码器将视频动态变化压缩为紧凑的潜在编码，VDM则负责将潜在编码渲染为视频[16][17] - 通过引入VDM作为外观渲染器，潜在编码得以专注于紧凑、可泛化的动作信息，同时利用解码器进行辅助重建并阻断梯度回传，从而稳定训练并提升模型对长时序复杂动态的捕捉能力[16][18] 性能表现与实验结果 - 在长达1分钟的复杂手工制作任务（如折纸、搭积木）测试中，VideoWorld 2的成功率远高于Sora 2、Veo 3和Wan 2.2等最先进技术，成功率提升超过70%，而后几种模型几乎无法完成此类任务[4][10] - 模型具备强大的技能泛化能力，能够将学习到的技能迁移至多种未见场景，并实现跨环境的多任务机器人操控[4][21] - 在潜在空间分析中，VideoWorld 2提取的编码对于跨环境（如仿真环境CALVIN与真实环境BRIDGE）的相似机械臂运动表现出更显著的聚类趋势，证明其能更好地提取跨场景共性，学习泛化性策略[23][25] 应用场景与数据基础 - 研究构建了两个实验环境进行评估：视频手工制作和视频机器人操控[8][9] - 手工制作视频环境包含多种场景下的精细动作与环境变化（如纸张不规则形变、视角切换与遮挡），视频时长达分钟级别并包含多个连续操作步骤，是评估模型复杂知识学习能力的理想测试场[8] - 机器人任务环境用于考察模型在理解控制规则和长程规划方面的能力[9] 发展前景与行业意义 - 该研究探索了AI直接从真实视频中学习复杂任务知识的边界，揭示了视觉能力是推动智能飞跃式发展的重要途径，对于构建能够自主感知、推理与行动的通用智能体具有指向性意义[4][26] - 尽管面向真实世界的视频知识学习与技能泛化仍存在很大挑战，但VideoWorld 2展示了从视频数据中学习更多样、更复杂任务技能的潜力[5][26] - 目前，该项目的代码与模型已开源[6]

Artificial Intelligence

视觉世界模型

Artificial Intelligence

VideoWorld 2

Sora 2

Veo 3

Artificial Intelligence

视觉世界模型

Artificial Intelligence

投资界· 2025-11-21 17:18

AI长视频内容的市场接受度与潜力 - 一部完全由AI制作的近7分钟综艺视频《把远古沧龙做成六道菜》在B站获得超过700万点击量，部分观众最初未察觉为AI制作[2][4] - 该作品成功转化了部分原本对AI内容持排斥态度的观众，此前约50%网友对AI内容存在排斥心理[3] - 视频弹幕中超过90%的评论对AI制作精良度表示惊叹，显示高质量AI内容能有效提升用户粘性[5] AI视频创作的技术流程与核心挑战 - 创作者采用人机协作模式，主要负责核心创意构思（如六位厨师人设、核心剧情），具体执行交由AI工具完成[7][8] - 制作过程中累计撰写约20万个提示词，复杂镜头提示词长度达一页Word文档，简单镜头则为三分之一页[6][8][9] - 为实现7分钟成片，实际生成视频片段超过1000个，远超理论所需的42个片段（按10秒/片段计算）[10] - 最大技术难点在于保持人物形象和菜品外观的一致性，解决方案包括通过括号强调关键元素以提升AI识别优先级[12] AI视频生成工具生态与使用策略 - 创作过程混合使用十余种AI工具，包括谷歌Veo 3（承担80%视频画面生成）、阿里Wan 2.2（动作生成优势）、快手可灵（擅长东方人物及中餐场景）[10] - 工具选择需注重风格统一性，例如Veo 3和Sora 2不建议混用以避免影片风格割裂[11] - 硬件投入约2万多元（含英伟达显卡、CPU、主板），制作成本约4000元（主要为付费模型会员及token费用）[12] 平台生态与内容创作趋势 - B站出现AI内容爆发趋势，除AI综艺外还有AI生成的NPC歌唱大赛等新形式，播放量从数万级跃升至数百万级[17][18] - 快手计划通过可灵模型重点赋能平台内创作者，百度则推出"魔法漫画"功能推动AI连载漫画发展[18] - 行业呈现从片段式AI应用（如早期"甄嬛吃汉堡"）向完整长视频内容升级的明显趋势，AI长内容未来可能形成独立专区[16][19] 创作者能力要求与行业方向 - 成功创作需具备多项复合能力：多语言提示词撰写、工具特性掌握、创意策划等，AI驱动技能成为创作者新标配[17] - 核心在于平衡科技与内容规律，坚持创作者主体性而非被动跟随AI输出，优质内容创意仍是吸引观众的首要因素[16][19] - 未来竞争将聚焦于AI掌控力与人类创意力的深度融合，形成集团化作战模式[19]