刚刚，创智+模思发布开源版Sora2，电影级音视频同步生成，打破闭源技术垄断

文章核心观点 - 上海创智学院OpenMOSS团队与模思智能联合发布了中国首个高性能开源端到端音视频生成模型MOVA，实现了“音画同出”，并选择全栈开源，旨在打破当前顶尖音视频生成技术普遍闭源造成的技术垄断，推动开源社区发展 [1][2][4][55] 产品发布与定位 - 模型名称为MOVA，是端到端音视频生成模型，能生成长达8秒、最高720p分辨率的视听片段 [1] - 模型在多语言口型同步、环境音效契合度上展现了极高的工业水准，生成效果具有身临其境的真实感 [1][3] - 在Sora 2和Veo 3等顶尖技术走向闭源的背景下，MOVA选择将模型权重、训练代码、推理代码及微调方案全栈开源 [2][4] 技术架构与创新 - MOVA是一个规模约320亿参数的模型，采用MoE架构，推理时激活180亿参数 [19] - 模型采用异构双塔架构，结合了14B参数的Wan 2.2 I2V作为视频骨干网络和1.3B的文本到音频扩散模型作为音频骨干网络，并通过双向桥接模块实现模态融合 [22][24] - 为解决音视频时间轴对齐问题，团队设计了Aligned ROPE机制 [24] - 训练策略上采用三阶段由粗到细的策略：360P训练、360P退火训练及720P训练，并引入了Dual Sigma Shift创新 [31][32][33] - 在推理中引入了双重Classifier-Free Guidance公式，允许用户在文本引导和音画同步间调整权重，并内置LUFS响度归一化算法确保音频质量 [42][44] 性能表现 - 在口型同步任务中，开启Dual CFG模式后，MOVA-720p的LSE-D得分为7.094，LSE-C得分为7.452，展现出优势 [48] - 在语音准确度指标cpCER上，MOVA也取得了最佳结果 [48] - 在人为主观竞技场评估中，MOVA的ELO评分达到1113.8，显著高于基线模型，并对战OVI和级联系统的胜率超过70% [49] 数据处理与工作流 - 构建了一套三阶段精细化数据处理管线，处理720p分辨率、24fps帧率、8.05秒时长的视频片段，并通过细粒度标注提升模型泛化能力 [28] - 设计了三阶段Agent工作流，通过视觉解析、提示词重构和双重条件生成，提升首帧一致性与指令遵循能力，降低用户素材门槛 [36][38][40][41] 行业意义与生态影响 - MOVA补全了音视频生成基础模型的开源拼图，改变了“领先技术不开源”的现状 [4][54][55] - 其360p版本面向较低硬件门槛，使音视频生成不再仅限于GPU集群 [56] - MOVA已成为昇腾首个支持的开源多模态音视频一体生成模型，获得了全栈算力支撑 [56] - 模思智能正快速构建其多模态基础模型版图，从语音识别到音视频生成，环环相扣 [57] 研发模式与人才培养 - MOVA是上海创智学院与模思智能在“研创学”模式下的成功实践，融合了学术深度与产业落地敏锐度 [59] - 学生在千卡级规模的工业级基模训练中承担核心任务，积累了解决大规模训练、数据处理、模型设计等硬核工程问题的实战经验 [59] - 这一模式重塑了AI顶尖人才培养路径，为未来AGI竞争储备力量 [60]