谷歌Gemini(VU3)
搜索文档
即梦Seedance2
2026-02-11 13:58
**行业与公司** * 行业:AI视频生成大模型行业[3] * 公司:即梦(Seedance)及其CDS 2.0模型[1][2][4] 可灵[4][5] Mi Max(海螺)[4][5] 阿里万象[8] 谷歌(Gemini VU3及Sora 2)[4][8] Minimax[12][16] 字节跳动[16] 腾讯[16] 阿里巴巴[16] 快手[16] **核心观点与论据** * **CDS 2.0模型的技术优势**: * 采用统一多模态架构,融合文字、图像、音频和视频帧进行训练,提升了语义理解和生成效果[1][2][4] * 初始提示词不需要特别精细或专业,大概率能一次性满足要求,情绪控制性强,易于广泛应用[1][2][4] * 应用多镜头技术,分镜切换自然,面部主体锁定合理,提高了视频整体一致性和观感[1][2][4] * 引入奖励模型,增强了对视觉细节的理解能力,提高了物理合理性和美感[1][4] * **行业技术路径与挑战**: * 主流技术路径是TIT架构及其变形,当前挑战在于将其扩展为面向多模态的DIT架构,并引入时间层次,以实现对视频每一秒钟的精细控制[1][7] * 扩大数据和参数量以提升模型规模是关键[1][7] * 原生多模态技术能实现文字、图像、声音和视频的综合输入(如CDS2.0目前限制为9个图像、3个视频和3个音频加文本),并支持音画同步输出,极大提高成片效率[13] * 视频生成与文本生成的技术路径不同,视频生成目前主要通过prompt直接生成完整片段,但技术上实现实时逐帧生成和交互具有可行性[17][18] * **行业影响与市场前景**: * 视频生成大模型作为生产工具,将显著降低影视、广告及游戏行业的制作成本和周期,推动文娱产业从人力密集型向算力密集型转变,并催生短剧、漫剧等新形式[3][14] * AI生成能力将带来创新玩法,使产业链更高效,同时导致创意岗位(如AI导演)增加,传统执行岗位减少[14][15] * AI驱动的视频内容创作市场前景广阔,随着精确度和可玩性提高,未来将涌现更多面向C端用户的创意应用,市场规模将呈现爆发式增长[3][20] * **商业模式与生态建设**: * 视频大模型企业应注重生态闭环建设,在产品化阶段结合产品需求迭代神经网络结构,需要既懂技术又懂产品的人才[11] * 各大厂商策略不同,如Minimax采用基座模型拓展多个子模型,谷歌强调生态全家桶策略[12] * 国内公司(如快手)将视频生成与生态系统结合,通过商品推荐与用户习惯分析提高平台流水,并赋能创作者,实现了较好的商业模式[16] **其他重要内容** * **竞争格局**: * 可灵擅长分镜编码技术,但抽选率略低于CDS 2.0[5] * Mi Max海螺画面细腻度和美感强,但缺乏工作流性质系统,不太适合作为生产力工具[5] * 阿里万象聚焦电商商品图及视频生成,在数字人模特展示服装时表现出色[8] * 谷歌及Sora 2是全球领先者,主打真实感及与物理相关能力[8] * **成本与效率优化**: * 降低推理成本可通过优化参数计算实现,例如同时处理音频特征和画面并结合prompt进行变形处理,以在不增加参数量的情况下降低成本[1][8] * 提高模型调整效率可通过工程手段与模型计算单元联合处理实现,例如模块化处理分镜预设、场景设定,并在模型层面留出缓冲层,以减少算力浪费[10] * **上游算力需求**: * 以1,080P、25帧每秒的视频为例,每秒钟消耗约3万至5万个token,随着对质量、时长、分辨率和帧率要求的提高,可能增加到5万至10万个token[19] * 2026年的视频生产token消耗量预计相比2025年至少增长10倍以上[19] * 从GPU和存储角度看,2026年的整体需求相比2025年中期水平将有10至15倍的提升[19] * **国内发展情况**: * 国内主要公司均在视频生成领域布局,其中快手较为领先[16] * 各公司在广告营销、电商、短剧及漫剧等可替代行业中发力,以期形成自己的工作流程[16] * 基模型理解能力的提升是关键,例如从早期接受50个字左右prompt到如今可接受200-300字以上prompt[16]