公司产品发布与核心能力 - 阿里巴巴于4月16日发布了名为HappyOyster(快乐生蚝)的世界模型产品,该产品由阿里ATH创新事业部团队研发,与之前的产品HappyHorse(快乐马)同属一个团队 [2] - HappyOyster基于原生多模态架构构建,支持多模态理解与音视频联合生成,目前产品具备“漫游(Wander)”和“导演(Direct)”两大核心能力,允许用户实时构建可互动、可演绎、可探索的AI数字世界 [4] - 用户生成的数字世界可以被完整保存,并开放给其他用户进行二次创作 [4] 技术架构与流派定位 - HappyOyster与谷歌的Genie3同属于“世界模拟器”流派,该流派采用长时间跨度上的世界演化建模方式,区别于传统文生视频模型的被动生成流程 [5] - 该技术通过学习海量长视频数据以及文本、动作指令、图像参考等多样控制信号,使模型能够主动理解空间、物理与因果规律,预测情节和画面的演变,从而将“被动生成内容”转变为“主动模拟世界演化” [5] - 官方表示,HappyOyster采用了时间跨度更长的世界演化建模方式,使模型能够保持高保真、长时序的动态场景生成,并在建模初始就设计了多样的控制信号,以实现生成质量、长时序与实时可控性的协同优化 [6] 产品差异化优势与具体功能 - 在产品能力上,HappyOyster不仅支持Wander漫游探索,还独家提供实时导演功能,用户可通过自然语言指令随时介入世界演化、调度角色事件,实现从被动探索到主动创作的跨越 [6] - 在视觉表现上,HappyOyster漫游模式的画面质量更高,风格泛化能力更强 [6] - 在漫游模式中,用户仅需一句话或一张图,即可生成具备物理一致性的完整空间,物体位置稳定、场景持久存在,视角与光照也能跟随第一人称视角持续移动 [9] - 用户能自由切换方向与镜头运动,突破初始画框的边界,目前支持长达1分钟的连续实时位移与镜头控制,并支持多样化的风格切换 [9] - 在导演模式下,用户能够在视频的任意节点,通过文字、语音或图像等多模态输入,随时实现镜头切换、剧情改写、角色调度 [8][11] - 导演模式支持连续生成3分钟以上的480p或720p实时画面 [11] - 当前漫游与导演两大模式尚未完全打通,但未来有望实现用户在漫游过程中直接与世界深度互动、实时改写场景规则的无缝融合体验 [11] 行业技术背景与对比 - 相比大语言模型相对成熟的模型架构和技术范式,世界模型仍属于前沿探索领域 [5] - 谷歌DeepMind团队提出的Genie模型包含三大部分:时空视频tokenizer、自回归dynamics模型和隐式动作模型,该系统在训练阶段不需要任何显式动作标签或环境规则,只依赖海量未标注视频进行无监督学习 [6][7] - Genie可以不依赖特定游戏引擎,从多模态提示生成可玩世界,并实现逐帧交互,这些特性使其被视为早期的世界模拟器 [6]
阿里“快乐马”团队再出手!正面叫板谷歌 Genie 3,世界模型 HappyOyster 来了