Workflow
CDS 2.0
icon
搜索文档
即梦Seedance2
2026-02-11 13:58
**行业与公司** * 行业:AI视频生成大模型行业[3] * 公司:即梦(Seedance)及其CDS 2.0模型[1][2][4] 可灵[4][5] Mi Max(海螺)[4][5] 阿里万象[8] 谷歌(Gemini VU3及Sora 2)[4][8] Minimax[12][16] 字节跳动[16] 腾讯[16] 阿里巴巴[16] 快手[16] **核心观点与论据** * **CDS 2.0模型的技术优势**: * 采用统一多模态架构,融合文字、图像、音频和视频帧进行训练,提升了语义理解和生成效果[1][2][4] * 初始提示词不需要特别精细或专业,大概率能一次性满足要求,情绪控制性强,易于广泛应用[1][2][4] * 应用多镜头技术,分镜切换自然,面部主体锁定合理,提高了视频整体一致性和观感[1][2][4] * 引入奖励模型,增强了对视觉细节的理解能力,提高了物理合理性和美感[1][4] * **行业技术路径与挑战**: * 主流技术路径是TIT架构及其变形,当前挑战在于将其扩展为面向多模态的DIT架构,并引入时间层次,以实现对视频每一秒钟的精细控制[1][7] * 扩大数据和参数量以提升模型规模是关键[1][7] * 原生多模态技术能实现文字、图像、声音和视频的综合输入(如CDS2.0目前限制为9个图像、3个视频和3个音频加文本),并支持音画同步输出,极大提高成片效率[13] * 视频生成与文本生成的技术路径不同,视频生成目前主要通过prompt直接生成完整片段,但技术上实现实时逐帧生成和交互具有可行性[17][18] * **行业影响与市场前景**: * 视频生成大模型作为生产工具,将显著降低影视、广告及游戏行业的制作成本和周期,推动文娱产业从人力密集型向算力密集型转变,并催生短剧、漫剧等新形式[3][14] * AI生成能力将带来创新玩法,使产业链更高效,同时导致创意岗位(如AI导演)增加,传统执行岗位减少[14][15] * AI驱动的视频内容创作市场前景广阔,随着精确度和可玩性提高,未来将涌现更多面向C端用户的创意应用,市场规模将呈现爆发式增长[3][20] * **商业模式与生态建设**: * 视频大模型企业应注重生态闭环建设,在产品化阶段结合产品需求迭代神经网络结构,需要既懂技术又懂产品的人才[11] * 各大厂商策略不同,如Minimax采用基座模型拓展多个子模型,谷歌强调生态全家桶策略[12] * 国内公司(如快手)将视频生成与生态系统结合,通过商品推荐与用户习惯分析提高平台流水,并赋能创作者,实现了较好的商业模式[16] **其他重要内容** * **竞争格局**: * 可灵擅长分镜编码技术,但抽选率略低于CDS 2.0[5] * Mi Max海螺画面细腻度和美感强,但缺乏工作流性质系统,不太适合作为生产力工具[5] * 阿里万象聚焦电商商品图及视频生成,在数字人模特展示服装时表现出色[8] * 谷歌及Sora 2是全球领先者,主打真实感及与物理相关能力[8] * **成本与效率优化**: * 降低推理成本可通过优化参数计算实现,例如同时处理音频特征和画面并结合prompt进行变形处理,以在不增加参数量的情况下降低成本[1][8] * 提高模型调整效率可通过工程手段与模型计算单元联合处理实现,例如模块化处理分镜预设、场景设定,并在模型层面留出缓冲层,以减少算力浪费[10] * **上游算力需求**: * 以1,080P、25帧每秒的视频为例,每秒钟消耗约3万至5万个token,随着对质量、时长、分辨率和帧率要求的提高,可能增加到5万至10万个token[19] * 2026年的视频生产token消耗量预计相比2025年至少增长10倍以上[19] * 从GPU和存储角度看,2026年的整体需求相比2025年中期水平将有10至15倍的提升[19] * **国内发展情况**: * 国内主要公司均在视频生成领域布局,其中快手较为领先[16] * 各公司在广告营销、电商、短剧及漫剧等可替代行业中发力,以期形成自己的工作流程[16] * 基模型理解能力的提升是关键,例如从早期接受50个字左右prompt到如今可接受200-300字以上prompt[16]
详细拆解Seedance2
2026-02-11 13:58
电话会议纪要分析 涉及的行业与公司 * **行业**:多模态人工智能(AIGC)、视频生成、算力基础设施、存储与网络、具身智能(自动驾驶、机器人)、短剧/漫剧/短视频内容创作、电商广告[1][9][10][11] * **公司**: * **国内**:字节跳动(CDS/CIDES 2.0、LLaMA生态、火山引擎)、极梦(JIMU)、可灵(Keling)、阿里巴巴(图像生成模型)、腾讯(混元3D模型)、Deepseek、GLM、MinMax、微度[1][2][5][6][7][11][14][17] * **国外**:谷歌(VIVO 3.1、Gemini、Nano Banana Pro)、OpenAI(Sora)、VO[1][2][5][7] 核心观点与论据 1. 国内多模态模型技术进展迅速,与海外差距缩小 * 国内多模态模型在技术和商业化方面取得显著进展[2] * 在物理规则理解方面,随着C端3.0版本发布,国内模型能力正在快速赶超海外水平[1][8] * 进展得益于国内数据产线、基础设施建设等生态系统的快速推进[1][8] * 国产多模态模型有望在未来1-2年内超越国外头部模型[8] 2. 主要模型技术架构与产品能力对比 * **字节跳动 CDS/CIDES 2.0**: * 采用**双分支 DIT (Diffusion Transformer)** 架构,创新在于视频和音频**同步生成**,而非分别生成再拼接[1][3] * 融合C位和Pixel Dance模型优点,提升音频定型和多运镜理解能力[1][4] * 产品能力:生成**10-15秒**高清原声视频;角色一致性出色;音画同步性及原声支持最强;多镜头叙事(智能分镜)能力突出;受益于字节跳动LLaMA生态系统,在提示词理解、可控性及后期编辑方面具有优势[1][5] * **谷歌 VIVO 3.1**: * 基于**Gemini Transformer**架构,结合**Latent Diffusion**方法进行3D空间理解[1][5] * 优势在于更好地解决角色一致性问题,在虚拟空间和现实世界理解方面有大量优化[1][5] * **可灵 3.0**: * 在动作流畅度(物理引擎)上有所优势[1][5] * **综合对比**: * CIDES 2.0与可灵3.0均支持1,080P高清,但风格各异[1][5] * 字节跳动凭借火山引擎等资源,成本控制较好,用户使用费用相对较低[5] 3. 商业化前景广阔,定价策略显现市场把握 * 多模态大模型未来商业化前景广阔,国内外主要企业均已推出产品并向C端开放[1][6] * **定价策略示例**:极梦会员包月**69元**,可灵会员包月**66元**,两者相差不大;但极梦提供阶梯会员服务,更高档次会员收费**499元/月**[1][6] * 定价策略显示出企业对市场需求的细致把握,以及通过规模效应降低成本、吸引用户并实现盈利的意图[6] * 将在**短剧、漫剧**等已有成熟盈利模式的领域继续拓展应用场景[6][9] 4. 国内外模型在关键性能指标上存在差异 * **生成速度**:国内极梦生成速度约为**60秒至80秒**;国外Sora和VO通常需要**100秒以上**[7] * **分辨率**:国内模型分辨率已达**2K**;国外模型仍停留在**1,080P**[1][7] * **生成时长**:国内单条视频最长可达**15秒**;国外为**25秒**[1][7] * 总体来看,国内模型在生成速度和分辨率等技术指标上具有一定优势[1][7] 5. 对算力、存储及基础设施产生巨大需求与影响 * C.3.0版本大规模应用将**显著增加算力需求**,推动OpenAI等公司加紧建设算力中心[3][11] * 未来几年内算力消耗将呈**指数级增长**,以满足全民级别使用廉价可达的多模态生成需求[3][11] * 这对于**存储、推理芯片以及云服务**相关企业是重要利好[3][11] * **Diffusion Transformer架构趋势**:参数量越来越大,但每次推理调用参数更少,使得未来在**端侧设备**(AI电脑、手机)本地部署成为可能,推动端侧推理设备和存算一体芯片发展[12] * 算力需求增长推动市场从千卡发展到**万卡甚至十万卡**级别,高性能网络连接和存储配置重要性提升[16] * 图像视频生成AI进步预计将导致**网络加速领域需求增加50%以上**,尤其在数据中心高速固点和高性能网络方面,2027年增长将非常显著[18] 6. 将重塑多个行业并催生新机会 * **直接影响行业**:**短视频、短剧、漫剧**(降低入行门槛,高效生产)、**电商和广告行业**(降低创意实现成本,打破传统生产模式)[9] * **积极影响领域**:**自动驾驶和机器人等具身智能场景**,多模态大模型能力提升将推动这些行业的数据采集与迭代,形成良性飞轮效应[10] * **物理世界数据**重要性将在2026年显著提升,带动相关基建投入,值得关注具身智能领域的数据基建公司[15] 7. 产业竞争格局:大厂未必完全垄断 * 大厂在算力、人力和数据量级上具有优势,但**不会完全垄断**所有AIGC产品市场[11] * 中小型公司可通过自训模型或接入大厂API保持竞争力,打出差异化[11] * 自训模型的中小公司未来融资压力可能更大,而直接接入大厂模型生态的小型企业可能迎来利好[11] * 目前市场上尚未出现像抖音那样压倒性的产品,各方都有机会[11] 8. 其他厂商进展与市场动态 * **阿里巴巴**:在多模态领域有扎实布局,最新图像生成模型可对标Nanbanana[14] * **腾讯**:整体技术实力有所落后,但其**混元3D模型**仍处于全球领先地位[14] * **创业公司**:如MinMax,在多模态方面表现出色,其语音生成和海螺等模型能力领先[14] * **市场期待**:GLM 5的架构(传言参考Deepseek);Deepseek新版本将重点优化agent能力和多模态能力,若成功可能取得市场领先[17] 其他重要内容 技术优化路径 * 提高生成效率方面,**模型架构优化**(基础层面,提升稀疏化、减少调用参数量)与**工程上的网络加速**(高性能计算资源利用)相结合才能达到最佳效果,但模型架构优化可能更为本质[3][19] * Deepseek和R1通过大量工程创新实现了显著的性能提升[3][19] 发展趋势总结 * 2026年,多模态AI模型及其商业化正在**明显加速发展**[20] * 国内外差距逐步缩小,技术进步将推动短剧、慢剧、广告等市场变革[20] * 今年,多模态AIGC产业有望迎来蓬勃发展,是值得重点关注的方向[20]
从seedance2
2026-02-11 13:58
行业与公司 * **行业**:AI漫剧/短剧制作行业[1] * **公司**:头部制作公司包括酱油文化、慢谈、奇想文化、富佰文化[5] 核心观点与论据 * **市场趋势与规模**:AI漫剧市场于2025年下半年爆发,当时市场规模估计为200亿元[1][4] 预计2026年市场规模将达到500亿元,但由于生产效率提升5至10倍,实际规模可能超过此预测[1][4] 未来内容创作门槛降低,但竞争壁垒将体现在故事讲述、视听语言和审美能力上[2][9] * **技术驱动与成本**:以Sora 2、VU 3.1、vidu、可灵3.0和CDS 2.0为代表的AI视频生成模型显著降低了制作门槛和成本[1][2] CDS 2.0在综合能力和创新功能上表现突出,能自动生成字幕和台词,大幅降低导演门槛[1][2] 使用C站3.0版本后,每分钟优质视频生成成本在50至100元之间,效率提升5至10倍,大幅节省人工成本[1][3] AI制作真人短剧成本已与2D/3D漫剧相当,仅差1.2至1.5倍左右[23] * **商业模式与回报**:行业早期投资回报率可达2以上,目前趋于理性,约为1.1至1.2,多数公司仍处于亏损状态[1][5][8] 平台合作模式多样,包括保底模式、直接购买、第三方承制按分钟收费、直接签约保证产能等[1][7] 早期试水建议选择保底模式,后期倾向稳定的按分钟收费模式[1][7] * **内容与IP战略**:IP在AI漫剧中至关重要,经典IP自带吸引力[2][10] IP授权模式包括闭源高价授权和开源衍生品变现,更多采用合作分佣模式[2][10][11] 前期IP选择对作品成功至关重要,需避免版权风险[2][10][11] 故事核心是打造爆款的关键[15] 内容题材上,女频内容(如大女主宫廷剧)正在增加,市场份额将扩大[14] * **竞争格局与用户**:头部公司如酱油文化市场贡献达22.39亿元,占比11%,慢谈贡献34.99亿元,占比17%[5] 从纯制作角度看,头部公司毛利率约为50%[5][6] 主要用户集中在18-30岁,男性居多,但用户群体正在扩展,包括更多女频用户和90后职场人士[16] 原生平台将继续扩张AI漫剧供给,将其作为拉新和广告库存的一部分,独家资源争夺将成为主要竞争策略[17] * **监管与风险**:抄袭问题因复制成本低而难以完全避免,未来法规和平台可能上线防重复检测功能[18] AI生成逼真名人形象带来风险,平台将要求更严格的标识与授权机制[19] AI生成内容审核主体包括平台自动算法、人工审核敏感内容以及第三方外包审核[20] 其他重要内容 * **制作类型趋势**:沙雕漫和解说漫收益系数较低(5到20),远低于2D或3D CG真人漫剧(收益系数50)[12] 未来高质量2D、3D漫剧以及真人剧、仿真人剧将成为主流,沙雕漫和解说漫市场份额可能降至10%以下[13] * **对传统行业冲击**:AI技术已开始颠覆真人短剧制作流程,80%的内容可通过AI生成[21] 影视城以及导演、摄影、美术灯光等相关从业者面临巨大冲击,编剧工作未来也可能受影响[22]
多模态-游戏投资逻辑更新
2026-02-11 13:58
涉及的行业与公司 * **行业**:多模态AI技术、AI视频生成、短剧与漫剧、游戏开发、云计算、内容版权保护[1][2][4][5][6][10][14] * **公司**:字节跳动、上海电影、美图公司、心动公司、完美世界、华通公司、掌阅科技、中文在线、阅文集团、欢瑞世纪、富博集团[1][2][7][8][9][11][12][14][15][18][19][20] 核心观点与论据 多模态AI技术发展与应用 * **字节跳动CDS 2.0模型**:于2026年2月7日开始测试,亮点在于参考能力及可控创作方式,支持上传文本、图片(最多9张)、视频(最多3个)及音频(最多3个),合计不超过12个文件,在物理规律遵循、动作流畅度、指令遵循度方面有显著增强[1][4] * **技术影响**:简化操作流程,提高成功率,满足B端与C端大规模使用需求,进入AIGC新时代[1][4] * **对云计算的影响**:多模态视频生成token消耗量巨大,例如4K高清分辨率每秒花费超过5万token,10秒1080P视频消耗35万token,5分钟视频可能需要上千万token,将推动云端弹性算力需求增长[10] 对内容产业(短剧、漫剧)的影响 * **短剧行业**:制作成本低、周期短,增长迅速,多模态AI工具有望进一步降低成本、提高产能,从而扩大市场规模并解决供给问题[2][5] * **漫剧行业**:市场规模已达200亿元,处于高速成长阶段,AI一直是其生产流程重要部分,新工具将加速其工业化进程,提高IP改编的重要性,推动行业向精品化发展[1][5][6] 受益公司与投资逻辑 * **上海电影**:持有上影元70%股权,上影元拥有30个真人IP和30个动画IP(如《大闹天宫》、《哪吒闹海》),通过与上影集团及美影厂合作进行IP唤醒与开发,多模态工具将加速此过程,具备良好投资价值[1][7] * **掌阅科技**:由字节跳动参股,推出AI漫剧一站式生成平台“泡漫”,整合超过1万个IP资源,并配套收益分成机制,打通版权创作、分发到变现全链路[8] * **中文在线**:拥有几百万部网文IP,通过短剧、漫剧等新赛道进行二次开发,构建从网文到影视的IP开发金字塔,提高开发效率和成功率[8] * **富博集团**:主营内容版权保护,与迪士尼、索尼、华纳等大型内容方合作,随着二创视频数量增加,版权保护需求上升,其AI二创内容占比已超过10%,作为垂直赛道龙头将受益于多模态加速发展[14] 工具/平台类公司优势 * **美图公司**:通过订阅应用全家桶模式转型,每个垂直应用精准切入细分用户需求,新功能迭代速度快(可能一个月多个新功能),工程化能力和社交媒体理解能力强,有望发展为模型超市[11] * **基本面**:预计2025年non-GAAP归母净利润同比增长60%至66%,达到9.4亿至9.7亿元人民币,得益于影像与设计业务高速发展及AI带来的量价齐升逻辑,海外订阅用户增长高于国内,占比已超过国内收入[12][13] 游戏行业的创新与机会 * **心动公司**: * 推出全球首创零代码游戏开发工具TapTap Maker,用户通过自然语言交互创建游戏,无需编写代码,已上线近200款AI制作的游戏,解放复杂内容形式的生产力[1][15] * 拥有自研AI游戏引擎Tap Maker,结合TapTap社区进行宣发,未来有望使每位玩家成为潜在游戏制作者,通过IAA和IAP模式变现,对抢占AI游戏社区生态位及提升整体估值至关重要[16] * 游戏《心动小镇》2026年1月8日在海外上线,无商业化付费点前提下,上线两周多下载量突破1,000万,在美日韩等主要地区免费榜维持高位,Discord成员数突破75万[17] * **完美世界**: * 新作《异环》是全球第三款二次元开放世界游戏,预计2026年5月15日上线,角色塑造和玩法丰富度提升,作为都市题材开放世界游戏融入科幻都市生活(如买房、开店),有望成为新的利润增长点及继原神和鸣潮后的新一代全球爆款[2][18] * **华通公司**: * 核心业务为SLG类游戏《无尽冬日》和《咱们王国》,今年最大看点是出海休闲游戏领域,新作Tasty Travels在2026年1月份进入首周出海收入榜前十名,有望通过休闲游戏下载流水天花板并提升估值[2][19] 其他重要内容 * **当前最值得关注的公司**:心动公司(AI技术解放生产力)、完美世界(产品周期优势)、华通公司(成熟SLG与新兴休闲游戏布局)[20] * **多模态模型市场影响**:最近发布的多模态模型(如GPT-3、可灵3.0和C.3.2.0)在基础能力、多模态素材支持和创作方式上有显著提升,对内容板块、电商、营销和游戏等多个领域产生直接影响[2]