低成本训练

搜索文档
11B模型拿下开源视频生成新SOTA!仅用224张GPU训练,训练成本省10倍
量子位· 2025-03-13 11:28
开源视频生成模型Open-Sora 2.0发布 - 核心观点:Open-Sora 2.0以20万美元低成本实现11B参数规模,性能接近30B闭源模型,全面开源模型权重与训练流程 [1][3][4][10] - 技术突破:训练成本降低5-10倍,相比百万美元级闭源模型具有显著成本优势 [2][3][13] - 性能表现:在VBench评测中与OpenAI Sora差距从4.52%缩小至0.69%,超越腾讯HunyuanVideo [12] 模型性能与架构 - 参数规模:11B参数媲美30B闭源模型HunyuanVideo和Step-Video [1][10] - 评估结果:在视觉表现/文本一致性/动作表现三个维度超越Runway Gen-3 Alpha等商业模型 [11] - 架构创新:采用3D自编码器+Flow Matching框架,引入MMDiT架构提升文本-视频关联 [15] 训练优化方案 - 数据筛选:多阶段多层次筛选机制确保高质量训练数据 [16] - 分辨率策略:优先低分辨率训练(256px)降低40倍计算开销,768px tokens量达8万 [17] - 并行方案:结合ColossalAI实现系统级优化,4160 GPU days总成本19.96万美元 [18][19] 推理效率提升 - 压缩技术:4×32×32高压缩比自编码器使768px视频推理时间从30分钟缩短至3分钟 [20][21] - 质量保持:LPIPS 0.049/PSNR 30.777/SSIM 0.872指标优于行业标准 [24] - 未来方向:高压缩比编码器可带来10倍推理加速 [25] 开源生态建设 - 开放内容:完整开源模型权重/推理代码/分布式训练全流程 [4][14] - 社区影响:半年获近百论文引用,全球开源视频生成项目影响力第一 [14] - 应用场景:支持720P/24FPS高画质生成,实现人物动作与物理规律精准模拟 [5][6][7][8][9]