视频生成技术发展 - 近年来视频生成任务取得显著进展,尤其是从静态图像生成视频(Image-to-Video generation)因其能以最小信息输入生成具有时间连续性与空间一致性的动态内容而受到关注 [1] - 扩散模型(Diffusion Models)、Transformer架构与高性能视觉理解模型的发展推动了视频生成技术的进步 [1] 当前视频生成技术瓶颈 - 当前主流方法缺乏有效、直观、用户友好的运动控制方式,限制了创意表达和实际应用价值 [2] - 现有方法依赖预设模板、动作标签或风格提示,缺少自由又精准的方式来指定对象与摄像机的运动路径 [2] ATI框架核心创新 - ATI是一种以"轨迹为指令"的可控视频生成框架,将用户手绘轨迹转化为显式控制信号 [2] - ATI使视频创作从"参数调控"转变为"可视化创意",实现"画到哪,动到哪"的帧级精准控制 [2] - ATI通过高斯运动注入器将轨迹编码为潜在空间中的运动向量,注入扩散生成流程 [6] ATI技术实现细节 - ATI接受静态图像和用户手绘轨迹作为输入,支持任意形状轨迹 [6] - 采用高斯运动注入器在特征图上创建移动的"亮点",使模型理解轨迹与生成视频的关联 [8] - 通过编码图像、采样特征、生成高斯权重和注入特征四个步骤实现轨迹控制 [11][12][13][14] - 支持统一控制对象级动作、局部身体部位运动与摄像机视角变化,无需切换模型或模块结构 [14] ATI应用表现 - 可实时捕捉任意轨迹路径并生成连贯自然的动态视频 [17] - 在人物或动物肖像场景中能准确还原关节弧度与质心移动,生成符合生物力学规律的运动 [19] - 最多可并行处理8条独立轨迹,保证多对象身份信息互不干扰 [21] - 支持同步驱动摄像机视角,生成包含电影级镜头语言的视频 [23] - 物体与摄像机轨迹可同时注入,实现多条运动指令的无缝融合 [25][26] - 展示出良好的跨领域泛化能力,覆盖多种艺术风格 [28] - 支持生成超越物理边界的非现实动作效果 [29] - 提供高精度模型和轻量级版本满足不同需求 [30] ATI开源与生态 - Wan2.1-I2V-14B模型版本已在Hugging Face社区开源 [32] - 社区生态快速完善,包括ComfyUI-WanVideoWrapper插件和教学视频等资源 [32] - 完整代码与模型可在GitHub和Hugging Face模型库获取 [32]
画到哪,动到哪!字节跳动发布视频生成「神笔马良」ATI,已开源!
机器之心·2025-07-02 18:40