阿里首个世界模型:快乐…生蚝
量子位·2026-04-17 14:45

产品发布与核心功能 - 阿里新成立的ATH事业群发布全球首个主动式实时交互的世界模型产品“HappyOyster”(快乐生蚝)[2][5] - 产品核心主打四大功能:漫游(Wander)、导演(Direct)、创造(Create)、分享(Share)[5][10] - “漫游”模式允许用户通过文本或图片输入生成可交互小世界,并使用WASD和方向键实时控制角色位移与镜头视角,沉浸式探索[5][7] - “导演”模式是一个实时AI视频导演引擎,允许用户在视频生成的任意节点,用文字指令实时控制镜头、调整角色、改变剧情走向,实现“边拍边改”[8][9] - “创造”功能将体验从“生成一段视频”进化到“创造一个世界”,用户成为深度参与的创造者[9] - 用户创建的世界可以分享,供他人探索和二次创作[10] 产品技术规格与体验 - “漫游”模式支持最长1分钟探索,分辨率为480p,时间结束后需重新进入[13][18] - “导演”模式支持最长3分钟视频生成,分辨率可选480p或720p[13] - 两种模式均支持多模态输入,以及音频和视频输出[13] - 产品生成速度快,且生成的世界自带背景音乐(BGM)并包含动态NPC,增强代入感[16][21] - 在“导演”模式下,用户可调整分辨率(720p、480p),设定叙事风格与情感基调(常规、平和、戏剧化),控制运镜方式与画面稳定度(稳定、快速)[26] - 产品目前处于邀请制体验阶段,需要申请邀请码[11] 核心技术突破 - 产品基于原生多模态架构与流式生成世界模型,重点突破三大核心技术难点以实现“实时交互、长时连贯、音画同步”[35] - 第一项突破是长时世界建模:采用长时间跨度的世界演化建模方式,通过海量长视频数据学习世界运行规律,并加入持续状态复用机制,通过历史注意力状态的连续传递来维持长时间生成时的场景结构与动态连贯性,解决“生成久了就错乱”的问题[36][37][38] - 第二项突破是实时交互控制响应:在建模初期设计多样控制信号(文本、动作、图像等),使外部指令能持续影响世界演化,实现生成质量、长时一致性与实时可控性的协同优化,模型从“被动生成内容”升级为“主动模拟世界”[40][41] - 为实现实时性,模型采用流式生成框架,通过对世界状态进行高度压缩的隐式建模来降低单步计算开销,并将控制信号设计为可在线注入的条件变量,确保无需重置生成过程即可实时响应[43] - 第三项突破是音视频联合生成:采用统一的音视频生成框架,在同一世界状态下同步生成视觉与听觉信号,通过共享条件约束与协同解码机制,保障音画同步与语义一致,提升沉浸感[44] 战略定位与未来应用 - 阿里ATH事业群于2024年3月16日成立,核心目标是“创造Token、输送Token、应用Token”,旗下涵盖从基础模型研发到个人与企业端AI应用的完整布局[35] - HappyOyster的核心能力是对开放世界状态进行持续建模、预测与响应,天生适合延伸到需要“实时感知—实时生成—实时反馈”闭环的现实场景中[32] - 潜在应用方向包括文旅展陈、线下娱乐、机器人训练、数字人陪伴、教育演练、智能空间交互等[32] - 模型可作为实时演化的世界引擎,与摄像头、麦克风、空间传感器、显示终端、机械装置或可穿戴设备连接,根据人的位置、动作、语言和环境变化动态生成内容或交互结果[32] - 与硬件系统结合后,产品将承载一个能被现实输入持续驱动的生成式环境系统,打开未来的应用场景[33] 行业意义与产品愿景 - 该产品标志着从传统“文生视频”模型向“生成可交互世界”的跃迁,旨在打破用户与数字世界之间的“第四面墙”[45][46] - 下一代生成式AI的目标是生成一个完整的、可进入的世界,这个世界包含空间、物理、因果、角色和故事,用户可以进入、改写、离开并邀请朋友进入[46] - 产品名称“HappyOyster”灵感来源于莎士比亚的名言“The world is your oyster”,寓意通过一句话就能拥有一个完整的、可漫游、可导演、可分享的数字世界[48]

阿里首个世界模型:快乐…生蚝 - Reportify