DiT(Diffusion Transformer)

搜索文档
国产AI视频三国杀:可灵、即梦、Vidu,谁会是最大赢家?
36氪· 2025-07-30 08:16
产品实测表现 - 可灵AI优势在于表现力强 能够生成极具视觉冲击力的画面 适合制作戏剧化内容 劣势在于容易"用力过猛" 对度的把握不足 免费版生成等待时间超过3小时[2][14][17] - Vidu优势在于真实细腻 模拟真实物理世界和微表情潜力强 视频最具电影感 劣势在于节奏慢爆发力不足 5秒时长内难以完全展现核心内容[2][17][28] - 即梦AI优势在于均衡可控 能准确完成指令 功能全面性最佳 支持数字人/动作模仿/运镜选择 劣势在于艺术表达缺乏惊喜 略显平庸[11][18][33] 技术路线差异 - 可灵采用与Sora一致的DiT架构 并自研3D VAE和3D时空联合注意力机制 实现时空信息高度融合处理 支持生成10秒1080P视频 在多模态编辑功能上突出[23][24][25] - Vidu采用U-ViT融合架构 结合U-Net底层特征捕捉与Transformer全局语义理解 实现端到端一次性生成 支持1080P输出 在参考生视频功能上独具特色[26][27][28] - 即梦以自研Seedance 1.0系列模型为主 引入精准描述模型和统一预训练框架 最快40秒生成5秒1080P视频 采用分级模型策略 即梦3.0用Seedance 1.0 mini模型 pro版用更强模型[29][31][33] 商业生态布局 - 可灵背靠快手短视频流量池 全球创作者超4500万 累计生成视频超2亿个 图片超4亿张 通过《新世界加载中》案例展示内容侧野心[2][4][35] - 即梦依托字节跳动旗下抖音和剪映 形成创作-分发闭环 目标成为下一代视频创作工作流核心 工具属性定位明确[18][36][38] - Vidu具备清华系技术背书 定位底层基础大模型 在To B市场有想象空间 但面临产品化和市场化挑战[35][37] 行业竞争格局 - 第三方评测Artificial Analysis显示 即梦Seedance 1.0在文生视频榜单以1314分位居首位 图生视频榜单以1365分领先[30][32][33] - 可灵Kling 2.0在文生视频榜单获1114分 图生视频榜单获1194分 处于竞争梯队[30][32] - 行业形成可灵表现派 Vidu写实派 即梦工具派的技术分化格局 最终赢家预计在可灵和即梦间产生[34][37][38]