Workflow
VIVO 3.1
icon
搜索文档
详细拆解Seedance2
2026-02-11 13:58
电话会议纪要分析 涉及的行业与公司 * **行业**:多模态人工智能(AIGC)、视频生成、算力基础设施、存储与网络、具身智能(自动驾驶、机器人)、短剧/漫剧/短视频内容创作、电商广告[1][9][10][11] * **公司**: * **国内**:字节跳动(CDS/CIDES 2.0、LLaMA生态、火山引擎)、极梦(JIMU)、可灵(Keling)、阿里巴巴(图像生成模型)、腾讯(混元3D模型)、Deepseek、GLM、MinMax、微度[1][2][5][6][7][11][14][17] * **国外**:谷歌(VIVO 3.1、Gemini、Nano Banana Pro)、OpenAI(Sora)、VO[1][2][5][7] 核心观点与论据 1. 国内多模态模型技术进展迅速,与海外差距缩小 * 国内多模态模型在技术和商业化方面取得显著进展[2] * 在物理规则理解方面,随着C端3.0版本发布,国内模型能力正在快速赶超海外水平[1][8] * 进展得益于国内数据产线、基础设施建设等生态系统的快速推进[1][8] * 国产多模态模型有望在未来1-2年内超越国外头部模型[8] 2. 主要模型技术架构与产品能力对比 * **字节跳动 CDS/CIDES 2.0**: * 采用**双分支 DIT (Diffusion Transformer)** 架构,创新在于视频和音频**同步生成**,而非分别生成再拼接[1][3] * 融合C位和Pixel Dance模型优点,提升音频定型和多运镜理解能力[1][4] * 产品能力:生成**10-15秒**高清原声视频;角色一致性出色;音画同步性及原声支持最强;多镜头叙事(智能分镜)能力突出;受益于字节跳动LLaMA生态系统,在提示词理解、可控性及后期编辑方面具有优势[1][5] * **谷歌 VIVO 3.1**: * 基于**Gemini Transformer**架构,结合**Latent Diffusion**方法进行3D空间理解[1][5] * 优势在于更好地解决角色一致性问题,在虚拟空间和现实世界理解方面有大量优化[1][5] * **可灵 3.0**: * 在动作流畅度(物理引擎)上有所优势[1][5] * **综合对比**: * CIDES 2.0与可灵3.0均支持1,080P高清,但风格各异[1][5] * 字节跳动凭借火山引擎等资源,成本控制较好,用户使用费用相对较低[5] 3. 商业化前景广阔,定价策略显现市场把握 * 多模态大模型未来商业化前景广阔,国内外主要企业均已推出产品并向C端开放[1][6] * **定价策略示例**:极梦会员包月**69元**,可灵会员包月**66元**,两者相差不大;但极梦提供阶梯会员服务,更高档次会员收费**499元/月**[1][6] * 定价策略显示出企业对市场需求的细致把握,以及通过规模效应降低成本、吸引用户并实现盈利的意图[6] * 将在**短剧、漫剧**等已有成熟盈利模式的领域继续拓展应用场景[6][9] 4. 国内外模型在关键性能指标上存在差异 * **生成速度**:国内极梦生成速度约为**60秒至80秒**;国外Sora和VO通常需要**100秒以上**[7] * **分辨率**:国内模型分辨率已达**2K**;国外模型仍停留在**1,080P**[1][7] * **生成时长**:国内单条视频最长可达**15秒**;国外为**25秒**[1][7] * 总体来看,国内模型在生成速度和分辨率等技术指标上具有一定优势[1][7] 5. 对算力、存储及基础设施产生巨大需求与影响 * C.3.0版本大规模应用将**显著增加算力需求**,推动OpenAI等公司加紧建设算力中心[3][11] * 未来几年内算力消耗将呈**指数级增长**,以满足全民级别使用廉价可达的多模态生成需求[3][11] * 这对于**存储、推理芯片以及云服务**相关企业是重要利好[3][11] * **Diffusion Transformer架构趋势**:参数量越来越大,但每次推理调用参数更少,使得未来在**端侧设备**(AI电脑、手机)本地部署成为可能,推动端侧推理设备和存算一体芯片发展[12] * 算力需求增长推动市场从千卡发展到**万卡甚至十万卡**级别,高性能网络连接和存储配置重要性提升[16] * 图像视频生成AI进步预计将导致**网络加速领域需求增加50%以上**,尤其在数据中心高速固点和高性能网络方面,2027年增长将非常显著[18] 6. 将重塑多个行业并催生新机会 * **直接影响行业**:**短视频、短剧、漫剧**(降低入行门槛,高效生产)、**电商和广告行业**(降低创意实现成本,打破传统生产模式)[9] * **积极影响领域**:**自动驾驶和机器人等具身智能场景**,多模态大模型能力提升将推动这些行业的数据采集与迭代,形成良性飞轮效应[10] * **物理世界数据**重要性将在2026年显著提升,带动相关基建投入,值得关注具身智能领域的数据基建公司[15] 7. 产业竞争格局:大厂未必完全垄断 * 大厂在算力、人力和数据量级上具有优势,但**不会完全垄断**所有AIGC产品市场[11] * 中小型公司可通过自训模型或接入大厂API保持竞争力,打出差异化[11] * 自训模型的中小公司未来融资压力可能更大,而直接接入大厂模型生态的小型企业可能迎来利好[11] * 目前市场上尚未出现像抖音那样压倒性的产品,各方都有机会[11] 8. 其他厂商进展与市场动态 * **阿里巴巴**:在多模态领域有扎实布局,最新图像生成模型可对标Nanbanana[14] * **腾讯**:整体技术实力有所落后,但其**混元3D模型**仍处于全球领先地位[14] * **创业公司**:如MinMax,在多模态方面表现出色,其语音生成和海螺等模型能力领先[14] * **市场期待**:GLM 5的架构(传言参考Deepseek);Deepseek新版本将重点优化agent能力和多模态能力,若成功可能取得市场领先[17] 其他重要内容 技术优化路径 * 提高生成效率方面,**模型架构优化**(基础层面,提升稀疏化、减少调用参数量)与**工程上的网络加速**(高性能计算资源利用)相结合才能达到最佳效果,但模型架构优化可能更为本质[3][19] * Deepseek和R1通过大量工程创新实现了显著的性能提升[3][19] 发展趋势总结 * 2026年,多模态AI模型及其商业化正在**明显加速发展**[20] * 国内外差距逐步缩小,技术进步将推动短剧、慢剧、广告等市场变革[20] * 今年,多模态AIGC产业有望迎来蓬勃发展,是值得重点关注的方向[20]