Workflow
Helios 家族
icon
搜索文档
14B规模竟也能单卡实时生成视频?多亏这个强大的开源底座
机器之心· 2026-03-07 12:20
行业技术趋势 - 春节期间Seedance 2.0爆火,再次将视频生成推上风口[1] - AI视频生成社区共识正愈发清晰:SOTA视频生成能力正快速向以Diffusion Transformer(DiT)为核心的统一范式收敛,模型比拼从基础画质堆料转向更高层级的语义理解深度与多模态协同效率[6] - 视频生成领域正迎来属于自己的“视觉版LLaMA时刻”,一个高性能、低成本且自主可控的视频大模型底座正加速演化为产业侧可复用的视频生成基础设施[13][14] 字节跳动Helios模型 - 字节跳动携手北大、安努智能和Canva共同开源了具备实时生成能力的视频模型Helios家族,包含Helios-Base、Helios-Mid与Helios-Distilled三个版本,全面覆盖T2V、I2V、V2V及交互式生成任务[1] - Helios模型以14B参数量实现高达19.5 FPS的单卡生成速度,做到了“质量”与“速度”齐飞[1] - 项目发布首日即实现对昇腾NPU的Day-0级别支持,并同步兼容Diffusers、vLLM-Omni、SGLang-Diffusion等主流推理框架[2] - Helios成功登顶Hugging Face Daily Papers,在GitHub上发布一两天后star数已超过520[3] - Helios模型的核心开发团队是北京大学袁粒课题组,该模型与团队之前开源的Open-Sora Plan(OSP)项目技术栈高度同源,与UniWorld-OSP2.0存在三分之一到二分之一的代码复用[3] - Helios是对其核心技术的一次有效验证,性能比OSP团队此前基于UniWorld-OSP2.0开发的OSP-RealTime 14B更胜一筹[4] 北京大学UniWorld-OSP2.0模型 - Open-Sora Plan团队推出的UniWorld-OSP2.0是业界首个开源的超百亿级(21B)视频生成大模型,也是首个实现“双原生”(昇腾原生及自回归+Diffusion混合架构)统一范式的大模型体系[6] - 在VBench-I2V基准测试中,UniWorld-OSP2.0在多项关键指标上表现优越,其整体表现已稳步进入开源阵营第一梯队[9] - 具体在VBench-I2V基准上,UniWorld-OSP2.0(14B)在主体一致性(96.21)、背景一致性(97.71)、运动平滑度(98.47)、动态程度(46.10)、美学成像质量(66.55)等指标上超越Wan2.1等模型[10] - Open-Sora Plan项目已累计获得约1.2万GitHub star和千万级下载量,多次登上Trending榜单,在实际代码活跃度上进入开源视频模型第一梯队[11] - 目前已有包括字节、腾讯WXG、阿里达摩院、小红书、哔哩哔哩等多家团队基于该框架展开二次开发,海外多家AI公司亦同步跟进[14] - 团队宣布将进一步开源12类风格化数据集及完整模型权重[14] UniWorld-OSP2.0技术架构与创新 - 整体架构由三大核心组件构成:因果变分自编码器(Causal VAE)、VLM增强的多模态条件模块、以及扩散Transformer(DiT)主干网络,这套“VAE+VLM+DiT”架构构成了其强大性能的基石[19] - 一大核心技术优势是FlashI2V机制,旨在解决图像生成视频(I2V)中的“条件图像泄漏”问题,该问题会导致生成视频动作僵硬或画面崩坏[20][21] - FlashI2V通过两个关键设计协同发力:潜空间偏移(Latent Shifting),通过修改流匹配分布隐式整合条件图像信息,减少去噪器过度依赖;傅里叶引导(Fourier Guidance),通过傅里叶变换提取图像高频特征以校准细节[27] - FlashI2V使得模型在多项I2V关键指标上成功超越了Wan2.1,并取得了最低的域外FVD[30] - 两大主要创新:一是引入冻结的预训练VLM(如7B参数的Qwen2.5-VL)作为多模态特征提取器,并通过轻量级Adapter与DiT对齐,大幅提升对细粒度信息的控制精度[33][34][35][36];二是推出I2SV(图像到风格化视频)范式,构建了包含12种典型艺术风格的数据集,实现一步输出时间连续且符合语义的风格化视频[38][40] - 在MMMU、MM-vet等视觉理解基准测试中,具备VLM加持的UniWorld-OSP2.0取得了优秀成绩(如MMMU 58.6, MM-vet 67.1)[37] OSP-RealTime 14B与实时生成 - 袁粒课题组基于UniWorld-OSP2.0训练了OSP-RealTime 14B模型(Helios系列底层的核心技术),在单块昇腾Atlas A3系列产品上把文生视频帧率拉到了10 FPS,成为第一个真正接近“交互式视频生成”的开源级扩散架构[42] - OSP-RealTime 14B将长视频生成重新定义为无限的视频续写任务,通过时间维噪声latent的拼接策略,在窗口切换时保持运动连续性,实现时间上的无限延展[43][44] - 在生成加速上做了三个关键优化:将噪声latent的帧数从21帧降到9帧,实现平方级算力节省;采用多尺度分辨率策略,先低分辨率生成大结构再逐步细化;通过DMD蒸馏将扩散推理步数从50步压缩到4步[47] - 工程优化包括:采用特征缓存方案(Latents Cache),预计算并存储引导词特征,使多轮迭代训练时间缩短约30%,并释放20%的显存资源;模型全程在昇腾Atlas A3系列产品上完成训练与推理,深度融合了MindSpeed-MM套件的分布式训练等原生特性[49] - OSP-RealTime 14B让14B参数规模的模型进入实时区间,为互动视频、生成式游戏场景、实时虚拟世界等应用提供了算力基础[50] 生态与产业意义 - 支撑OSP系列项目的算力引擎指向了一套庞大的国产化算力生态——鲲鹏与昇腾算力[7] - 北京大学鲲鹏昇腾科教创新卓越中心的赋能和算力支持,使这些开源项目得以成为现实[6] - UniWorld-OSP2.0在昇腾算力平台上跑通了工业级视频生成闭环,依托昇腾底座定义了视频生成的“公共基础设施”[52] - 该项目为以昇腾为核心的国产智算生态提供了一份高价值的工程落地手册,解决了底层通信算子的精度误差与非并行切分层的推理崩溃隐患,开发者无需从零训练高耗能组件即可获得成熟工具链[52]