VIVO 3.1 - 财报，业绩电话会，研报，新闻

VIVO 3.1

搜索文档

2026-02-11 13:58

电话会议纪要分析涉及的行业与公司 * **行业**：多模态人工智能（AIGC）、视频生成、算力基础设施、存储与网络、具身智能（自动驾驶、机器人）、短剧/漫剧/短视频内容创作、电商广告[1][9][10][11] * **公司**： * **国内**：字节跳动（CDS/CIDES 2.0、LLaMA生态、火山引擎）、极梦（JIMU）、可灵（Keling）、阿里巴巴（图像生成模型）、腾讯（混元3D模型）、Deepseek、GLM、MinMax、微度[1][2][5][6][7][11][14][17] * **国外**：谷歌（VIVO 3.1、Gemini、Nano Banana Pro）、OpenAI（Sora）、VO[1][2][5][7] 核心观点与论据 1. 国内多模态模型技术进展迅速，与海外差距缩小 * 国内多模态模型在技术和商业化方面取得显著进展[2] * 在物理规则理解方面，随着C端3.0版本发布，国内模型能力正在快速赶超海外水平[1][8] * 进展得益于国内数据产线、基础设施建设等生态系统的快速推进[1][8] * 国产多模态模型有望在未来1-2年内超越国外头部模型[8] 2. 主要模型技术架构与产品能力对比 * **字节跳动 CDS/CIDES 2.0**： * 采用**双分支 DIT (Diffusion Transformer)** 架构，创新在于视频和音频**同步生成**，而非分别生成再拼接[1][3] * 融合C位和Pixel Dance模型优点，提升音频定型和多运镜理解能力[1][4] * 产品能力：生成**10-15秒**高清原声视频；角色一致性出色；音画同步性及原声支持最强；多镜头叙事（智能分镜）能力突出；受益于字节跳动LLaMA生态系统，在提示词理解、可控性及后期编辑方面具有优势[1][5] * **谷歌 VIVO 3.1**： * 基于**Gemini Transformer**架构，结合**Latent Diffusion**方法进行3D空间理解[1][5] * 优势在于更好地解决角色一致性问题，在虚拟空间和现实世界理解方面有大量优化[1][5] * **可灵 3.0**： * 在动作流畅度（物理引擎）上有所优势[1][5] * **综合对比**： * CIDES 2.0与可灵3.0均支持1,080P高清，但风格各异[1][5] * 字节跳动凭借火山引擎等资源，成本控制较好，用户使用费用相对较低[5] 3. 商业化前景广阔，定价策略显现市场把握 * 多模态大模型未来商业化前景广阔，国内外主要企业均已推出产品并向C端开放[1][6] * **定价策略示例**：极梦会员包月**69元**，可灵会员包月**66元**，两者相差不大；但极梦提供阶梯会员服务，更高档次会员收费**499元/月**[1][6] * 定价策略显示出企业对市场需求的细致把握，以及通过规模效应降低成本、吸引用户并实现盈利的意图[6] * 将在**短剧、漫剧**等已有成熟盈利模式的领域继续拓展应用场景[6][9] 4. 国内外模型在关键性能指标上存在差异 * **生成速度**：国内极梦生成速度约为**60秒至80秒**；国外Sora和VO通常需要**100秒以上**[7] * **分辨率**：国内模型分辨率已达**2K**；国外模型仍停留在**1,080P**[1][7] * **生成时长**：国内单条视频最长可达**15秒**；国外为**25秒**[1][7] * 总体来看，国内模型在生成速度和分辨率等技术指标上具有一定优势[1][7] 5. 对算力、存储及基础设施产生巨大需求与影响 * C.3.0版本大规模应用将**显著增加算力需求**，推动OpenAI等公司加紧建设算力中心[3][11] * 未来几年内算力消耗将呈**指数级增长**，以满足全民级别使用廉价可达的多模态生成需求[3][11] * 这对于**存储、推理芯片以及云服务**相关企业是重要利好[3][11] * **Diffusion Transformer架构趋势**：参数量越来越大，但每次推理调用参数更少，使得未来在**端侧设备**（AI电脑、手机）本地部署成为可能，推动端侧推理设备和存算一体芯片发展[12] * 算力需求增长推动市场从千卡发展到**万卡甚至十万卡**级别，高性能网络连接和存储配置重要性提升[16] * 图像视频生成AI进步预计将导致**网络加速领域需求增加50%以上**，尤其在数据中心高速固点和高性能网络方面，2027年增长将非常显著[18] 6. 将重塑多个行业并催生新机会 * **直接影响行业**：**短视频、短剧、漫剧**（降低入行门槛，高效生产）、**电商和广告行业**（降低创意实现成本，打破传统生产模式）[9] * **积极影响领域**：**自动驾驶和机器人等具身智能场景**，多模态大模型能力提升将推动这些行业的数据采集与迭代，形成良性飞轮效应[10] * **物理世界数据**重要性将在2026年显著提升，带动相关基建投入，值得关注具身智能领域的数据基建公司[15] 7. 产业竞争格局：大厂未必完全垄断 * 大厂在算力、人力和数据量级上具有优势，但**不会完全垄断**所有AIGC产品市场[11] * 中小型公司可通过自训模型或接入大厂API保持竞争力，打出差异化[11] * 自训模型的中小公司未来融资压力可能更大，而直接接入大厂模型生态的小型企业可能迎来利好[11] * 目前市场上尚未出现像抖音那样压倒性的产品，各方都有机会[11] 8. 其他厂商进展与市场动态 * **阿里巴巴**：在多模态领域有扎实布局，最新图像生成模型可对标Nanbanana[14] * **腾讯**：整体技术实力有所落后，但其**混元3D模型**仍处于全球领先地位[14] * **创业公司**：如MinMax，在多模态方面表现出色，其语音生成和海螺等模型能力领先[14] * **市场期待**：GLM 5的架构（传言参考Deepseek）；Deepseek新版本将重点优化agent能力和多模态能力，若成功可能取得市场领先[17] 其他重要内容技术优化路径 * 提高生成效率方面，**模型架构优化**（基础层面，提升稀疏化、减少调用参数量）与**工程上的网络加速**（高性能计算资源利用）相结合才能达到最佳效果，但模型架构优化可能更为本质[3][19] * Deepseek和R1通过大量工程创新实现了显著的性能提升[3][19] 发展趋势总结 * 2026年，多模态AI模型及其商业化正在**明显加速发展**[20] * 国内外差距逐步缩小，技术进步将推动短剧、慢剧、广告等市场变革[20] * 今年，多模态AIGC产业有望迎来蓬勃发展，是值得重点关注的方向[20]

多模态大模型

Artificial Intelligence

Artificial Intelligence