Workflow
Diffusion Transformer
icon
搜索文档
一文读懂Sora2核心点-中信建投证券
搜狐财经· 2025-10-11 09:26
Sora2产品与技术特点 - 产品采用DiT(Diffusion Transformer)架构,该架构已成为视频生成领域的主流技术范式,通过融合Transformer的时序处理能力和扩散模型的生成质量实现技术突破[18][29] - 通过大规模视频数据训练、提示词重写增强(利用LLM优化指令)及音画同步优化提升生成效果与可控性,在文生视频(武侠、悬疑)和图生视频(喜剧卡通)场景表现达第一梯队[1][36] - 上线3天登顶美国iOS应用榜,首两日下载量达16.4万次,采用邀请制裂变传播(受邀用户获4个新邀请码)构建社交生态[1][30][45] 产品功能与用户体验 - 主打移动端优先策略,创作界面极致简化,仅保留文本输入框支持"一句话生成视频",大幅降低用户使用门槛[1][48] - 创新推出"Remix"二创功能,允许用户以现有视频为模板进行二次创作,以及"Cameo"数字分身功能,将真实社交关系融入AI生成内容[1][55][56] - 通过Y轴滑动浏览作品和X轴滑动查看二创版本的双轴设计,结合原生音画同步输出,打造类似短视频平台的沉浸式浏览体验[47][62] 市场空间与商业模式 - AI视频生成市场呈现P端(专业创作者)、B端(企业级应用)和C端(大众消费)三端共振格局,中期总市场规模763亿元,长期达1554亿元[2][7] - P端市场因用户付费意愿强,中期空间262亿元,长期888亿元;B端聚焦影视、广告等场景的成本替代,中期501亿元,长期666亿元;C端效仿短视频平台通过流量变现[2][7] - Sora2采用免费+增值服务模式,基础版免费生成360p视频,ChatGPT Pro会员可享受Sora Pro高级功能,API调用按秒计费(1024p视频每秒0.5美元)[45][64] 成本结构与算力需求 - 算力成本高昂,保守估计APP每日推理成本达1400万美元,年化成本超过51.2亿美元,凸显算力在AI竞争中的决定性地位[2][8] - OpenAI与NVIDIA、AMD等芯片巨头达成战略合作以保障算力供应,巨大推理需求推动产业链发展[2][8] - 通过生成360p低分辨率视频而非行业主流的1080p内容,显著降低单次生成算力消耗,支撑免费商业模式可行性[62][64] 行业竞争格局 - 当前主流AI视频生成产品如Runway Gen-2、Veo 3、Kling 2.1等大多支持生成5-10秒1080p视频,商业化多采用C端会员订阅和B端API调用模式[63][64] - 行业技术路线从早期GAN、VAE架构,经Transformer与扩散模型并行探索,现已进入DiT架构主导阶段,Sora2的产品化成功验证了这一技术方向[17][29] - 产品差异化竞争重点从技术参数比拼转向用户体验优化,通过社交功能整合和病毒式传播设计实现大众市场突破[38][56]
3DGS重建!gsplat 库源码解析
自动驾驶之心· 2025-09-24 07:32
作者 | 微卷的大白 编辑 | 自动驾驶之心 原文链接: https://zhuanlan.zhihu.com/p/1952449084788029155 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 前两天看到李飞飞 Worldlabs 新工作Mrable的时候,提到后面想多看一看 3DGS / 重建相关的工作。 不过如果真的有小白要踩坑 ,gsplat 的文档和维护其实比gaussian-splatting 要稍微好一些,个人更推荐这个库。 相比3DGS 论文对应的 gaussian-splatting 库,nerfstudio-projectgsplat 是对官方库做了一些优化,可参考https://docs.gsplat.studio/main/migration/migration_inria.html 的 说明。 但是知乎搜了一下发现,讲 3DGS 论文原理、改进的不少,我自己上半年也回顾过cuda kernel 源码:重温经典之 3DGS CUDA 源码解析 ,但是另一个常用的gsplat ...
EasyCache:无需训练的视频扩散模型推理加速——极简高效的视频生成提速方案
机器之心· 2025-07-12 12:50
研究背景与动机 - 扩散模型和扩散Transformer在视频生成领域广泛应用,显著提升了AI合成视频的质量和连贯性,如OpenAI Sora、HunyuanVideo、Wan2.1等模型已能生成结构清晰、细节丰富且高度连贯的长视频内容 [3] - 当前扩散模型存在推理慢、算力消耗高的问题,例如HunyuanVideo生成5秒720P视频在单张H20上需2小时,限制了实时互动和移动端应用 [4] - 核心瓶颈在于扩散模型需多次迭代去噪,每一步都需完整神经网络前向推理,导致大量冗余计算 [5] 方法创新:EasyCache设计与原理 - EasyCache是一种无需训练、无需模型结构改动的推理加速框架,通过动态检测模型输出的「稳定期」复用历史计算结果以减少冗余推理步骤 [7] - 研究发现扩散模型在去噪初期输出变化剧烈需完整推理,中后期「变换速率」趋于稳定,行为近似线性,可通过复用历史结果跳过冗余计算 [12][13] - 采用自适应缓存机制,通过变换速率度量(Kt)和累计误差阈值(Et)动态判断是否复用缓存,前R步为warm-up确保初期结构信息不丢失 [15][19] 实验结果与性能 - 在HunyuanVideo上实现2.2倍加速,PSNR提升36%至32.66,SSIM提升14%至0.9313,LPIPS大幅下降至0.0533,视频质量几乎无损 [17][20] - 在Wan2.1上取得2.54倍加速,PSNR达25.24,SSIM 0.8337,LPIPS 0.0952,优于Static cache和TeaCache等方法 [20] - 在图像生成任务(FLUX.1-dev)实现4.64倍加速,FID降至23.2,CLIP Score保持26.1 [21][22] - 与SVG等稀疏注意力技术叠加后平均加速达3.3倍,总体推理时长从2小时缩短至33分钟 [23][26] 技术优势与行业影响 - 可视化对比显示EasyCache生成的视频在细节、结构和清晰度上与原模型几乎一致,显著优于静态缓存和TeaCache等方法 [24][25] - 该技术为视频扩散模型提供了极简、高效、训练无关的推理加速新范式,为实际应用落地奠定基础 [27] - 未来有望通过持续优化进一步逼近「实时视频生成」目标,推动数字内容创作和多媒体娱乐行业变革 [27]
AI应用系列报告:AI视频生成:商业化加速,国产厂商表现亮眼
国元证券· 2025-06-27 13:13
报告行业投资评级 - 推荐,维持 [2] 报告的核心观点 - AI视频生成技术从GAN-Transformer-Diffusion Model-DiT演进,推动行业进入可商用阶段,预计2032年全球规模突破184亿人民币,2025至2032年复合增速20% [4] - 行业受价格和模型能力驱动,国产厂商如可灵等表现突出,看好行业发展,建议关注快手和美图公司 [4] 根据相关目录分别进行总结 技术路径:从GAN - Transformer - Diffusion Model - DiT - 20世纪90年代以来,AI视频生成从静态图像序列拼接成视频流开始,历经GAN、Transformer、Diffusion Model到DiT的技术演进,生成内容丰富度和可控性提升 [4][7] - GAN于2014年提出,2016年用于视频生成,存在多样性有限等问题;Transformer于2017年提出,应用于视频生成领域,成本高、速度慢;Diffusion Model由前向和反向过程组成,2020年后在视觉生成领域占主导 [8][15][22] - 2022年DiT架构提出,2024年OpenAI的Sora验证了Diffusion和Transformer结合的有效性,成为核心路线 [8][23] - 快手、可灵、Seedance、腾讯混元等采用DiT架构并进行优化,行业围绕提升效率等目标持续迭代 [30][31] AI视频生成行业:逐步进入可商用阶段,应用及商业化加速 驱动因素:价格和性能共同驱动行业成长 - 全球视频内容流量占比持续攀升,预计2032年AI视频生成全球规模达25.63亿美金,2025 - 2032年复合增速20%,市场营销及广告需求最大,社交媒体应用增长最快 [40] - 价格上,主流模型API单秒价格0.2 - 1元/秒,对比传统视频制作成本有极大替代优势;模型能力上,时长、速度、质量、丰富度等方面不断提升 [4][46][47] 行业应用:B端应用场景多元化,C端内容持续破圈 - 2B应用包括影视内容创作、商业广告等,如电商服装行业和影视短片制作,可解决成本高和周期长的痛点;2C方面,创意玩法拉近与用户距离,内容破圈 [54] 产品及竞争格局:可灵等国产厂商表现突出 - 模型表现上,Seedance1.0、Veo2/3、Kling2.0等居前,国内模型达全球领先水平;商业化上,Runway和可灵表现突出 [58] - 使用量份额上,Kling突出;web端访问量和APP端MAU方面,Sora、Kling等排名靠前 [63] 投资建议及相关标的 快手——可灵产品表现亮眼,商业化加速 - 可灵于2024年6月发布,采用DiT架构并优化,累计迭代超20次,全球用户超2200万,5月访问量达1625万次,美国、中国等为访问量前五国家 [68] - 产品有多种形态和进阶功能,支持视频延长和多图参考,创意特效助力社媒传播;商业化上,营收增速和水平居前列 [74] - 预计2025 - 2027年经调整净利润200.77/246.20/287.21亿元,维持“买入”评级 [70] 美图公司(未覆盖)——AI赋能,与阿里深化合作 - 公司通过自研和采购获取AI模型能力赋能业务,C端产品用户规模领先,AI视频工具Wink月活突破3000万,生产力场景月活用户数增长25.6% [75] - 2024年底全球月活用户数2.66亿,海外用户增长;与阿里签署2.5亿美元可转债协议,将在电商和模型开发领域合作 [75] - 预计2025 - 2027年营业收入42.43/51.69/61.56亿元,归母净利润8.10/10.92/14.58亿元 [76][77]