谷歌向左、李飞飞往右，阿里世界模型「快乐生蚝」杀出第三条路

阿里发布新产品HappyOyster - 阿里旗下Alibaba Token Hub创新事业群继推出“欢乐马”后，近期发布了名为HappyOyster（快乐生蚝）的新产品[1][2] - 该产品是一款可实时构建和交互的开放式世界模型产品，基于原生多模态架构，支持多模态输入与音视频联合生成的流式生成[3][4] 产品核心功能 - 漫游功能：是首个支持任意风格、无限互动的通用世界模型，用户输入文本或图像即可生成无边探索的世界场景，支持1分钟以上的实时位移和镜头控制[7] - 导演功能：是基于世界模型的实时AI视频导演引擎，可连续生成长达3分钟的720p实时视频，用户可通过文字指令实时操控镜头、调度角色、改变剧情[8] 产品实测体验 - 漫游功能生成场景迅速，能在十几秒内构建出细节符合物理规律的完整场景，用户可使用WASD或方向键控制角色或镜头移动，画面实时响应且流畅无卡顿[17][18][19] - 系统能自动为场景配上契合氛围的BGM，实现音画同步[20] - 产品能基于上传的静态图片生成具有连贯空间结构和运动逻辑的完整场景，在视角推进时保持景物层次变化的连贯性与风格一致性[21][22][23] - 导演功能允许在视频任意节点实时改变内容，例如在生成的场景中通过追加文字指令，让新角色出现或改变人物动作，模型能即时响应且画面变化自然流畅[25][26][28] 技术路径与行业对比 - 世界模型与Sora、可灵等文生视频模型的底层逻辑不同，文生视频是给定条件后一次性生成封闭结果的系统，而世界模型学习的是世界如何演化，没有预设终点，可随时被用户指令打断和干预[30][31] - 世界模型的训练难度更高，需解决实时响应速度与长时序生成一致性的挑战，HappyOyster采用流式生成框架降低计算延迟，并引入持续状态复用机制以在长时间跨度上维持场景稳定[32] - 在音画协同上，产品采用统一的音视频生成框架，在同一世界状态下同步生成视觉与听觉信号[32] - 与Google的Genie或李飞飞团队的World Labs等现有世界模型研究方向相比，HappyOyster选择在像素空间内进行长时序、实时可交互的动态世界模拟，并加入了音视频联合生成能力[33][35] 行业意义与发展阶段 - AIGC赛道正从“生成内容”向“构建世界”演进，HappyOyster的出现展示了可随时进入、修改并实时反馈的“自定义数字世界”的轮廓[36] - 产品的应用场景广泛，包括文旅展陈、互动短剧、影视概念验证、品牌营销、直播共创等需要实时感知、生成与反馈闭环的场景，长远看可与硬件结合成为由现实信号驱动的生成式环境系统[36][37] - 世界模型整体仍处于早期阶段，面临长时序物理一致性、复杂场景因果推理等硬核挑战，HappyOyster是当前最接近“可用产品”形态的探索之一[37]