Seedance 1.0

搜索文档
营收超1亿美元!可灵,凭什么?
第一财经· 2025-08-06 23:32
AI视频生成行业动态 - 创作者Hashem AI-Ghaili使用AI工具在12天内以500美元成本制作出短片《Kira》,在YouTube和Bilibili分别获得5.9万和47.9万次观看 [2] - 另一部短片《The Colorless Man》制作成本仅600美元,使用ChatGPT、MidJourney等工具完成脚本、图像、视频、语音等全流程 [4] - 视频生成赛道从最初不被看好到1年后出现商业成功案例,如可灵年化营收突破1亿美元 [7] 可灵公司发展 - 可灵用户规模从2024年Q3的500万快速增长至4500万,均为付费用户 [8][15] - 年化营收(ARR)在2024年3月突破1亿美元,超过MiniMax的7000万美元预期收入 [7] - 在Poe平台市场份额达30%,超过Runway的23.6% [18] - Freepik平台数据显示可灵生成视频数量超过其他模型总和 [19] 技术迭代与功能创新 - 推出"首尾帧"功能让用户通过两张图片生成连贯过渡视频 [9] - 1.5版本新增"运动笔刷"、"人脸一致性"、"口型同步"等功能提升视频可控性 [11] - 1.6版本推出"多图参考"功能,用户可上传多张图片作为生成参考 [13][14] - 2.0版本整合多模态交互方式MVL,允许文字、图片、视频片段等多种输入 [15] - 最新推出"灵动画布"功能,整合文生图、图生视频等流程并支持团队协作 [23][24][25] 行业竞争格局 - 可灵在国内领先生数科技(ARR 2000万美元)、字节跳动即梦AI(ARR<1000万美元)等竞争对手 [17] - 全球范围内与Runway(ARR 8400万美元)形成竞争 [17] - 面临Google Veo 3(支持生成带声音视频)和字节跳动Seedance 1.0等新模型的追赶 [21][23] - 行业用户忠诚度低,新模型上线会快速改变市场份额分布 [21] 商业化应用前景 - 视频生成技术已应用于Netflix《the eternaut》、Amazon Prime《House of David》等影视作品 [27] - 广告营销行业广泛应用AI技术生成素材,如保持模特一致性推广不同产品 [34] - 好莱坞态度从抵触转为拥抱,出现AI分镜师等新职业 [41][42] - 预计未来将向Agent方向发展,实现从脚本到视频的自动化生成 [45]
入选ICML 2025,Meta/剑桥/MIT提出全原子扩散Transformer框架,首次实现周期性与非周期性原子系统统一生成
36氪· 2025-07-14 17:52
核心观点 - Meta FAIR、剑桥大学与麻省理工学院的联合科研团队提出全原子扩散Transformer ADiT,首次实现用单一模型生成分子与晶体,打破周期性与非周期性系统的建模壁垒 [1][3] - ADiT通过全原子统一潜在表示与Transformer潜在扩散两大创新,显著提升训练和推理效率,生成10,000个样本的时间从2.5小时缩短至20分钟以内 [3] - 模型参数扩展至5亿规模时性能呈现可预测线性提升,为构建通用型生成化学基础模型奠定关键基础 [3] 技术突破 - ADiT设计几乎不引入归纳偏差,自编码器与扩散模型在训练和推理效率上远超传统等变扩散模型 [3] - 首次实现适用于周期性材料和非周期性分子系统生成模型的统一,有效简化生成过程 [5] - 采用变分自编码器(VAE)进行全原子重建,将分子和晶体嵌入共享潜在空间,为统一处理搭建基础框架 [9] 实验数据 - 研究团队选取MP20数据集(45,231个亚稳态晶体结构)、QM9数据集(130,000个稳定有机小分子)、GEOM-DRUGS数据集(430,000个大型有机分子)及QMOF数据集(14,000个金属有机框架结构)展开实验 [7][8] - MP20与QM9分别对应周期性与非周期性系统,为联合训练提供基础 [8] - GEOM-DRUGS与QMOF进一步拓展模型测试范围,全面检验泛化能力 [8] 性能表现 - ADiT在晶体和分子生成任务中均达到SOTA水平,在有效性、稳定性、独特性和新颖性等关键指标上表现出色 [12] - 联合训练机制带来显著性能增益,同时在QM9和MP20数据集上训练的ADiT全面优于单一数据集训练版本 [12] - 模型规模与性能强相关,DiT去噪器参数量从3,200万增至4.5亿时,扩散训练损失持续降低,有效性比率稳步提升 [13] 效率优势 - 在英伟达V100 GPU上生成10,000个样本时,ADiT推理速度远超等变基线模型,即便参数规模大100倍仍更快 [14] - 在GEOM-DRUGS分子数据集上,ADiT与最先进的等变扩散和流匹配模型表现相当,体现设计通用性 [16] - 基于标准Transformer架构,无需显式预测原子键即可达到与等变模型相当性能 [16] 行业动态 - 加州大学伯克利分校、微软研究院与Genentech公司推出多模态蛋白质生成方法PLAID,性能卓越 [17] - 百奥几何发布全球首款全能蛋白质基础模型GeoFlow V2,攻克蛋白质结构预测与设计任务 [17] - 字节跳动Seedance 1.0采用变分自编码器与扩散Transformer结合技术,实现快速高效AI视频生成 [17]
多模态大模型崛起:华泰证券预测应用奇点即将到来
搜狐财经· 2025-07-14 07:44
多模态大模型发展趋势 - 多模态大模型正迅速接近关键转折点,是大语言模型(LLM)演进的必然趋势 [1][5][6] - 原生多模态架构(MLLM)因全模态同步训练在性能、延时、部署上优势显著,但算力要求严苛,OpenAI和Google处于领先地位 [1][6] - 技术迭代推动图像生成转向易用性,视频生成在时长、清晰度、一致性持续突破,语音、音乐、3D领域同步拓展 [2][4] 商业化进展 - 全球商业化呈现三大趋势:海外快于国内、一级市场公司快于二级市场、多模态产品快于文本产品 [1][7] - 海外Chatbot类产品(如OpenAI、Anthropic)年化收入(ARR)超10亿美元,国内Chatbot商业化仍较初期 [1][7] - 国内年收入超1亿美元的AI公司(美图、快手、睿琪软件)均聚焦多模态产品 [1][7] 视频生成赛道表现 - 国内厂商在视频生成赛道全球化与商业化最成熟,字节Seedance 1.0、快手可灵(Kling)、MiniMax Hailuo 02位列全球榜单前列 [8] - 快手可灵上线10个月ARR突破1亿美元,标志国内视频生成从单点突破进入多点突破阶段 [2][8] 投资机会 - 算力侧:原生多模态模型及视频推理需求激增,视频Agent落地进一步催生算力需求 [9] - 应用侧:广告、零售、创作等领域AI化需求释放,国内视频生成模型领先 [9] - 推荐标的包括国产算力链(沪电股份、生益科技)及应用产业链(微软、奥多比、金山办公等) [9][14] 行业共识与未来方向 - 多模态大模型将成为行业核心发展方向,融合图像、视频、语音数据以拓宽AI应用场景 [4][15] - 原生多模态架构主流化及一级市场公司进展需重点关注,与市场认知存在差异 [5][7]