昆仑万维正式发布SkyReels-A3模型

公司动态 - 昆仑万维于8月11日正式发布SkyReels-A3模型，该模型基于DiT视频扩散模型、插帧模型、强化学习动作优化和运镜可控技术，能够实现全模态音频驱动数字人创作 [1] - SkyReels-A3模型已正式上线，可支持任意时长的音频驱动内容创作，提升个性化、交互式内容的创作效率 [1] - 公司启动SkyWork AI技术发布周活动，计划在8月11日至15日期间每天发布一款新模型，涵盖视频生成、世界模型、生图一体化、智能体和AI音乐创作等多个AI核心场景 [1] 技术特点 - SkyReels-A3是一款音频驱动人像视频生成模型，能够实现照片或视频中人物根据语音内容开口说话、唱歌或表演 [2] - 该模型支持替换原视频音频并自动调整人物口型、表情和表演，保持画面连贯性 [2] - 针对直播带货等应用场景，公司优化了视频生成的一致性和特定交互动作的自然度 [2] - 针对音乐MV、电影片段等场景，公司开发了基于ControlNet结构的镜头控制模块，可实现帧级别精准运镜控制 [2] 技术验证 - SkyReels-A3的性能已通过广泛实验验证，包括与现有最先进开源和闭源模型的定量和定性比较 [3]