低成本训练 - 财报，业绩电话会，研报，新闻 - Reportify

低成本训练

搜索文档

11B模型拿下开源视频生成新SOTA！仅用224张GPU训练，训练成本省10倍

量子位· 2025-03-13 11:28

开源视频生成模型Open-Sora 2.0发布 - 核心观点：Open-Sora 2.0以20万美元低成本实现11B参数规模，性能接近30B闭源模型，全面开源模型权重与训练流程 [1][3][4][10] - 技术突破：训练成本降低5-10倍，相比百万美元级闭源模型具有显著成本优势 [2][3][13] - 性能表现：在VBench评测中与OpenAI Sora差距从4.52%缩小至0.69%，超越腾讯HunyuanVideo [12] 模型性能与架构 - 参数规模：11B参数媲美30B闭源模型HunyuanVideo和Step-Video [1][10] - 评估结果：在视觉表现/文本一致性/动作表现三个维度超越Runway Gen-3 Alpha等商业模型 [11] - 架构创新：采用3D自编码器+Flow Matching框架，引入MMDiT架构提升文本-视频关联 [15] 训练优化方案 - 数据筛选：多阶段多层次筛选机制确保高质量训练数据 [16] - 分辨率策略：优先低分辨率训练（256px）降低40倍计算开销，768px tokens量达8万 [17] - 并行方案：结合ColossalAI实现系统级优化，4160 GPU days总成本19.96万美元 [18][19] 推理效率提升 - 压缩技术：4×32×32高压缩比自编码器使768px视频推理时间从30分钟缩短至3分钟 [20][21] - 质量保持：LPIPS 0.049/PSNR 30.777/SSIM 0.872指标优于行业标准 [24] - 未来方向：高压缩比编码器可带来10倍推理加速 [25] 开源生态建设 - 开放内容：完整开源模型权重/推理代码/分布式训练全流程 [4][14] - 社区影响：半年获近百论文引用，全球开源视频生成项目影响力第一 [14] - 应用场景：支持720P/24FPS高画质生成，实现人物动作与物理规律精准模拟 [5][6][7][8][9]

开源视频生成

低成本训练

高效能优化

高压缩比视频自编码器

开源视频生成

低成本训练

高效能优化

高压缩比视频自编码器