Workflow
AI视频生成
icon
搜索文档
港股异动 | 快手-W(01024)再涨近5% 可灵“Motion Control”海外出圈 机构看好其商业化空间
智通财经网· 2026-01-06 11:06
公司股价表现 - 快手-W(01024)股价连续上涨,截至发稿涨4.76%,报77.1港元,成交额23.31亿港元,前一日股价大涨超11% [1] 产品功能与市场热度 - 公司旗下AI视频生成模型“可灵(Kling)”的“Motion Control”功能成为海外社交媒体热门趋势,用户基于此创作了具有传播潜力的视频内容 [1] - a16z投资合伙人贾斯汀·摩尔将该功能称为“视频界的Nano Banana”,凸显其创新性与市场关注度 [1] 技术进展与模型迭代 - 可灵AI模型于2025年12月推出2.6版本,该版本可实现单次生成完整的音视频 [1] 市场数据与竞争地位 - 根据Similar Web数据,截至2025年12月底,可灵AI网站全球访问量明显增长,并在12月底单日访问量超过Minimax海螺、Runway与Midjourney等竞争对手 [1] 商业化进展 - 以可灵2.6模型为例,生成5秒视频仅支持高品质模式,收费50个灵感值,而公司1.6模型的“标准模式”和“高品质模式”分别收费20和35个灵感值 [1] - 模型升级带来的价格提升,进一步打开了公司的商业化空间 [1]
快手-W(01024):可灵迭代用户有望增长,One系列模型持续提振主业
申万宏源证券· 2026-01-05 17:46
报告投资评级 - 投资评级:买入(维持) [2] 核心观点 - 快手可灵AI模型于2025年12月密集迭代,其中可灵O1是全球首个统一多模态视频模型,可灵2.6首次实现音画同出,有望拉动用户数和付费率增长 [7] - 可灵2.6与可灵O1较Google Veo3.1、Sora2有明显价格优势,有望提升市场竞争力 [7] - One系列端到端生成式模型(如OneRec、OneSearch)在营销和电商业务场景持续提振主业,提升收入和运营效率 [7] - 展望2026年,预计公司主业维持稳健增长,此前网络攻击事件影响有限 [7] 可灵AI模型迭代与影响 - 可灵AI于2025年12月密集上线新版本:1)全球首个统一多模态视频模型可灵O1;2)首个音画同出模型可灵2.6;3)可灵数字人2.0;4)可灵O1主体库与对比模板 [7][8] - 可灵O1模型支持全模态编辑,可更好嵌入工作流提升效率;可灵2.6支持音画同出,能更好与游戏、广告、短剧、直播等业态结合 [7] - 根据Similar Web数据,截至2025年12月底,可灵AI网站全球访问量明显增长,并在12月底单日访问量超过Minimax海螺、Runway与Midjourney等竞争对手 [7] - 根据可灵AI一周年官方数据,可灵上线一周年完成超过20次迭代,全球用户规模突破2200万,累计生成1.68亿视频,3.44亿图片,为超过1万家企业提供API服务 [9] - 可灵2.5 Turbo模型在文生视频、图生视频胜负比表现超过了所有其他对比模型,并登顶Artificial Analysis榜单全球文生视频模型和图生视频模型榜单第一名 [9] 可灵AI定价与竞争优势 - 可灵2.6高品质音画同出版本,黄金/铂金/钻石/黑金会员生成视频每秒单价分别为0.88元/0.78元/0.73元/0.44元 [7][10] - 对比Google Veo 3.1标准版接口定价0.4美元/秒,快速版0.15美元/秒,以及Sora2-pro定价0.3美元/秒,可灵2.6具有明显价格优势 [7][10] - 可灵2.6最高品质音画同出版本与Sora2定价0.1美元/秒基本属于同一价位 [7][10] - 根据快手财报,可灵AI在2025年第三季度收入超过3亿元,公司预计全年收入有望达到1.4亿美元 [7] One系列模型对主业的提振 - 在营销方面,AI大模型尤其是OneRec对快手2025年第三季度国内营销收入提升约4%-5% [7][19] - 在电商业务场景,快手推出端到端生成式搜索架构OneSearch,驱动商城搜索订单量提升5%的效果 [7][19] - OneRec推荐系统在推荐模型FLOPs提升10倍的同时,大幅削减了通信和存储等运营成本近90% [13] - AB测试显示,OneRec叠加奖励模型选择策略后,在快手主站/极速版实现停留时长提升0.54%/1.24%、7日用户生命周期(LT7)增长0.05%/0.08% [14] - OneRec在快手本地生活服务场景推动GMV暴涨21.01%、订单量提升17.89%、购买用户数增长18.58%,新客获取效率提升23.02% [14] 财务数据与盈利预测 - 营业收入预测:2025年1422亿元,2026年1552亿元,2027年1693亿元 [7] - 营业收入同比增长率:2025年12%,2026年9%,2027年9% [6] - 经调整归母净利润预测:2025年202亿元,2026年223亿元,2027年255亿元 [7] - 经调整归母净利润同比增长率:2025年14%,2026年10%,2027年14% [6] - 对应市盈率(PE)估值:2025年13倍,2026年12倍,2027年10倍 [7]
ControlNet作者张吕敏最新论文:长视频也能实现超短上下文
机器之心· 2026-01-03 15:00
行业技术瓶颈 - 当前高质量AI视频生成模型普遍存在时长限制,通常只能生成上限约15秒的视频,且提高清晰度会进一步缩短时长[1] - 技术瓶颈在于长视频在模型内部会产生海量数据,一段60秒、480p、24帧/秒的视频会被拆解成超过50万个潜在token[2] - 模型为保持剧情连贯与画面一致,需保存长上下文记忆,这导致算力需求爆炸,普通显卡无法承受[3] - 这是自回归视频生成模型的核心矛盾:上下文越长画面越连贯,但计算成本也越高[4] - 现有妥协方案包括使用滑动窗口切掉历史以换取可运行算力,或对视频进行激进压缩以牺牲清晰度和细节[5],但这些方法往往会最先丢失决定画面真实感与一致性的高频细节[6] 创新解决方案 - 斯坦福大学张吕敏团队提出了一种专为长视频设计的记忆压缩系统新思路,旨在压缩的同时尽可能保留精细视觉信息[6] - 研究核心是提出一种神经网络结构,用于将长视频压缩为短上下文,并设计了一种显式的预训练目标,使模型能够在任意时间位置保留单帧中的高频细节信息[7] - 基线模型可以将一段20秒的视频压缩为约5k长度的上下文表示,同时支持从中随机检索单帧,并在感知质量上保持良好的外观保真度[8] - 该预训练模型可直接微调为自回归视频模型的记忆编码器,从而以较低的上下文成本实现长历史记忆建模,且仅带来相对较小的保真度损失[8] 技术架构与训练方法 - 研究采用两阶段策略:首先预训练一个专用的记忆压缩模型,目标是在任意时间位置上尽可能保留高保真帧级细节信息[11] - 预训练目标通过对从压缩历史中随机采样的帧最小化其特征距离来实现,确保模型在整个序列范围内都能稳健地编码细节信息[12] - 网络结构采用轻量级双路径架构:模型同时处理低分辨率视频流和高分辨率残差信息流,并通过将高分辨率特征直接注入Diffusion Transformer的内部通道,绕过传统VAE所带来的信息瓶颈,以提升细节保真度[12] - 核心创新在于预训练目标设计:模型学习将长视频历史H压缩为一个紧凑的上下文表示,同时保持对任意时间位置帧进行重建的能力[17] - 在训练中,模型从历史序列中随机选择一组帧索引Ω并掩蔽其余帧,必须仅依赖压缩后的表示来重建这些被选中的帧,这种随机化选择机制防止模型投机取巧,迫使其学习在整个时间序列范围内持续保留细节信息的表示方式[17][21] 模型微调与系统构建 - 借助预训练完成的记忆压缩模型,可通过对视频扩散模型(如WAN,结合LoRA微调)以及该压缩模型作为历史记忆编码器进行联合微调,从而构建一个自回归视频生成系统[26] - 最终得到的视频生成模型具备超长历史窗口(例如超过20秒)、极短的历史上下文长度(例如约5k),并且对帧检索质量进行了显式优化[27] 实验设置与数据 - 实验使用8 × H100 GPU集群进行预训练,并使用1 × H100s或A100s进行LoRAs微调,所有实验均在HunyuanVideo和Wan系列的基础模型上进行[30] - 数据集由来自多个网站的约500万互联网视频组成,其中约一半是竖屏短视频,其余为普通横屏视频[30] - 测试集包括由Gemini-2.5-pro编写的1000个故事板提示和4096个未在训练数据集中出现过的视频[30] 评估结果 - 定性评估表明,模型能够处理多种多样的提示和故事板,同时在角色、场景、物体和情节线方面保持一致性[34] - 定量评估引入了VBench、VBench2等平台的多个视频评估指标,本文提出的方法在多个一致性指标上表现出合理的分数[34][36] - 在视频内容一致性定量评测中,本文提出的方法(4×4×2)在衣物一致性(Cloth)上得分为96.12,身份一致性(Identity)为70.73,实例一致性(Instance)为89.89,ELO评分为1216[35] - 在更高压缩设置(2×2×2)下,衣物一致性得分提升至96.71,身份一致性为72.12,实例一致性为90.27,ELO评分为1218[35] - 用户研究和ELO分数验证了提出的架构在压缩和质量之间实现了有效的权衡[36] 消融实验与性能 - 消融实验的定量结果表明,本文方法在PSNR、SSIM等指标上取得了相对更优的性能[37] - 具体而言,提出的方法(4×4×2)PSNR为17.41,SSIM为0.596,LPIPS为0.171;在更高压缩率(2×2×1)下,PSNR达到20.19,SSIM为0.705,LPIPS为0.121[37] - 即便在4×4×2的较高压缩率条件下,该方法仍然能够有效保持原始图像结构[37]
告别“音画割裂”与“人物崩坏”!AutoMV:首个听懂歌词、卡准节拍的开源全曲级MV生成Agent
量子位· 2025-12-29 14:37
文章核心观点 - 现有的AI视频生成模型在生成长达数分钟的完整音乐视频时面临时长限制、音画割裂和一致性差三大挑战,导致画面不连贯、人物换脸且忽略歌词含义 [1][4][5][6] - 研究团队提出了名为AutoMV的多智能体协作系统,该系统无需训练,通过模拟人类影视制作流程,能够根据音乐节拍、歌词和结构自动生成长达数分钟、叙事连贯且音画同步的完整MV [2][7] - AutoMV将专业MV的制作成本从约1万美元大幅降低至约15美元,并将制作时间从数十小时缩短至约30分钟,同时质量逼近专业水平 [3][9][21][25] 技术方案与工作流程 - **系统构成**:AutoMV不是一个单一模型,而是一套模拟人类影视制作流程的多智能体协作系统,像一个全自动摄制组 [7][9] - **音乐预处理**:系统利用SongFormer、Whisper、htdemucs等工具对音乐进行“解剖”,分离人声和伴奏,提取歌词、时间戳,并分析歌曲结构(如主歌、副歌)和情绪(如“轻快”、“忧伤”) [12] - **编剧与导演规划**:引入Gemini作为编剧,根据歌词含义和音乐结构撰写分镜脚本,并建立共享角色库,详细定义主角形象以确保一致性;引入Doubao作为导演,负责生成具体的画面提示词和关键帧 [13][16] - **视频生成与验证迭代**:根据剧本调用视频生成模型(如Doubao或wan2.2-s2v)进行生成;系统内置独特的验证智能体,会像制片人一样检查生成视频的连贯性、物理合理性、人物一致性和与剧本的契合度,不通过则自动打回重做 [14][15][16] 性能优势与评估结果 - **对比优势**:与商业产品(如OpenArt-story和Revid.ai)相比,AutoMV在人物一致性、动作多样性(如跳舞、唱歌)和叙事性(视频内容紧扣歌词意境)方面表现出显著优势 [18][20] - **客观指标**:在团队提出的首个M2V基准测试中,AutoMV在衡量音画一致性的ImageBind Score上得分最高,达到24.4分 [21][23] - **人类专家评估**:在人物一致性、故事性及情感表达上,AutoMV显著优于商业竞品,大幅缩小了与人类专业MV(成本≥1万美元,制作周期数周)的差距 [21][24] - **AI评估可行性**:研究使用Gemini-2.5-Pro等全模态大模型作为裁判,发现模型能力越强,其评分与人类专家越一致,证明了用AI评估AI视频的可行性 [24] 行业影响与未来展望 - **解决核心难题**:AutoMV提供了一个开源、免训练的框架,通过多智能体协作,解决了长形式音乐视频生成中的“一致性”和“音画对齐”两大核心难题 [25] - **降低创作门槛**:该技术为独立音乐人和创作者提供了一种全新的低成本创作工具,极大降低了专业MV的制作门槛 [3][25] - **未来潜力**:尽管目前生成一首完整MV约需30分钟,且在极复杂的舞蹈卡点上仍有提升空间,但随着底层视频生成模型的进化,其表现将更加值得期待 [25]
真人AI影视真的狼来了吗?EP1 | 真人AI短剧一则
新浪财经· 2025-12-28 21:12
行业现状与核心挑战 - 当前真人AI视频生成技术已能通过手工方式制作出精致的艺术品级别的短片,例如几十秒的广告片,但制作过程耗时长达几星期[3][5] - 真人AI影视生成的核心问题是时间与规模化生产能力,手工制作模式无法有效扩展到长达几十分钟甚至一两个小时的影视级内容[5] - 与动漫AI短剧生产相比,真人AI视频在人物一致性、画面光影、人物互动及对话等影视表现方面的要求更高,技术门槛显著更高[7] 技术瓶颈与生产模式 - 现有方法如使用单张图生成多个分镜图,适用于生成十几秒的病毒传播短视频,但难以确保上百上千个镜头的长篇影视内容的连续性和专业表现[7] - 当前真人AI视频制作属于工坊式小制作,缺乏可扩展的影视生产流水线,若建立此类手工流水线,其人员培训成本和维护成本将相当高[5] 发展前景与行业断言 - 尽管存在挑战,但行业认为相关问题是可以克服的,一旦突破,基于AI的长篇视频内容生产将展现出无与伦比的威力[9] - 行业断言真人AI影视时代已经悄然到来,预计在不久的未来将出现基于AI视频生成的完整真人短剧甚至电影[9] - 已有实验性作品出现,例如实验短剧《凡人职场传》的EP1,展示了该技术方向的实际应用探索[11]
标题不贴合需求核心,推测你可能想围绕科技产业博弈等方面生成标
搜狐财经· 2025-12-27 19:03
现象描述 - Sora2一经发布便成为现象级产品 相关话题在社交媒体上的讨论量于一周内突破10亿次 日下载量超过62万次 迅速攀升至应用下载榜首 [1] 战略与商业模式 - Sora2的开发是企业构建内容生态闭环的重要战略布局 其盈利模式包括订阅服务、企业定制化解决方案以及广告分成等多元化途径 [2] - 为研发Sora2 企业投入了巨额资金 研发成本可能高达85亿美元 巨大的财务压力倒逼公司加速商业化进程以尽快实现盈利 [2] 技术与生态壁垒 - Sora2依靠强大的技术护城河突围 解决了AI视频生成领域长期存在的画质、逻辑连贯性等痛点 通过先进的物理模拟技术使生成的视频更加真实自然 极大地提升了生产力 [3] - 企业构建了完善的生态闭环 整合了内容创作者、平台方、广告商等多方资源 形成了一个相互促进、协同发展的生态系统 进一步巩固了其市场地位 [3] 行业竞争格局 - 在AI视频生成领域 Sora2面临包括Meta、亚马逊等科技巨头以及一些中国厂商的激烈竞争 [4] - Meta凭借其庞大的社交用户基础试图在AI视频领域分一杯羹 亚马逊则利用其云计算优势为AI视频生成提供强大的算力支持 中国厂商则以其高效的研发速度和本地化优势积极参与市场竞争 [4] 行业影响与未来展望 - Sora2的出现标志着AI视频生成领域进入全新阶段 它不仅重塑了内容产业的上下游产业链 也对互联网格局产生了深远影响 [8] - 有行业项目组透露 金管道信息科技有限公司正通过优化算法、降低算力成本等方式应对成本压力 [8] - 未来 随着技术的不断进步和市场的逐渐成熟 AI视频生成将为内容产业带来更多的可能性 推动整个行业向更高水平发展 [8]
视频生成DeepSeek时刻!清华&生数开源框架提速200倍,一周斩获2k Star
机器之心· 2025-12-26 12:35
核心观点 - 清华大学TSAIL团队与生数科技联合发布的TurboDiffusion加速框架,将AI视频生成从“分钟级等待”带入“秒级实时”时代,实现了高达200倍的推理加速,是行业发展的关键转折点[1][3][52] 技术突破与核心优势 - **加速效果显著**:在单张RTX 5090显卡上,主流视频生成模型的推理速度得到百倍提升,例如将14B模型生成5秒720p视频的时间从4767秒缩短至24秒,加速近200倍[1][26][43];将1.3B模型生成5秒480p视频的时间从184秒缩短至1.9秒,加速97倍[39][40] - **攻克核心瓶颈**:该框架成功击破了扩散模型生成高质量视频面临的主要壁垒——高推理延迟,通过系统性优化解决了处理海量时空token导致的耗时问题[7] - **四大核心技术驱动**:通过混合注意力加速、高效步数蒸馏、W8A8线性层量化以及训练阶段的并行策略协同作用,实现加速[13][21] - **混合注意力加速**:结合SageAttention(低比特量化注意力)与Sparse-Linear Attention(稀疏线性注意力),两者正交叠加可获得数倍额外加速[14][17][19] - **高效步数蒸馏**:引入rCM蒸馏方法,将采样步数从100步大幅减少至3-4步,同时保持视频质量[20] - **W8A8线性层量化**:对模型权重和激活值进行8-bit分块量化,将模型大小压缩约一半,并利用INT8 Tensor Cores加速计算[21] - **训练优化策略**:采用并行训练,将预训练模型的全注意力替换为SLA进行微调,同时使用rCM进行蒸馏,最后合并参数,以平衡推理效率与生成质量[22] 实际应用与性能表现 - **支持多种模型**:框架已支持包括TurboWan2.2-I2V-A14B-720P、TurboWan2.1-T2V-14B-720P等多个文生视频、图生视频模型版本,提供480p至720p的最佳分辨率[8][9] - **图生视频加速**:在14B模型生成5秒720p视频的任务中,实现了几乎无损的端到端119倍加速[31] - **文生视频加速**:在14B模型生成5秒720p视频的任务中,实现几乎无损的端到端200倍加速[43] - **商业模型集成验证**:在生数科技自研的Vidu模型上,生成8秒1080p视频的延迟从900秒提速到8秒,且不损失生成质量[47][48] 行业影响与产业落地 - **开启新范式**:标志着AI视频创作从“渲染与等待”模式向“实时生成”时代转变的关键节点[3][52] - **降低算力门槛**:使高端视频创作能力从昂贵的H100等专业显卡下沉到RTX 5090等消费级显卡,极大降低了个人创作者的算力门槛[52] - **技术广泛部署**:核心组件SageAttention作为全球首个注意力计算量化加速方案,已被工业界大规模部署,集成至NVIDIA Tensor RT,并落地于华为昇腾、摩尔线程等主流GPU平台[27] - **头部企业应用**:腾讯混元、字节豆包、阿里Tora、智谱清影、百度飞桨、昆仑万维、Google Veo3、商汤等国内外科技公司已在核心产品中应用相关技术,创造了可观经济效益[27] - **未来应用场景**:为AI视频直播、个性化视频流、AR/VR实时内容渲染等需要即时反馈的应用场景的落地铺平了道路[52]
攻克长视频生成记忆难题:港大与快手可灵MemFlow设计动态自适应长期记忆,告别快速遗忘与剧情错乱
量子位· 2025-12-25 08:27
文章核心观点 - 由香港大学与快手可灵团队联合研发的MemFlow模型,通过创新的流式自适应记忆机制,解决了AI生成长视频时存在的叙事不连贯、角色特征遗忘与混淆等关键问题,将AI视频生成从“片段拼接”推向“故事编写”的新高度 [2][3][26][27] 技术背景与现有问题 - 当前主流AI长视频生成采用“分块生成”策略,但如何让后续片段精准记忆前面内容存在巨大技术鸿沟 [4] - 现有解决方案存在明显局限:“只记开头”策略在故事发展引入新角色或场景时会迷失;“一刀切”压缩策略会丢失关键细节;“各自为政”的流程缺乏全局一致性 [5] - 这些僵化、非自适应的记忆策略无法满足交互式创作中流动、不可预测的叙事需求,是导致长视频生成一致性差的主要原因 [6] MemFlow的核心创新与优势 - 核心创新在于建立了一套动态、以语义为桥梁的记忆系统,而非依赖死板、固定的记忆 [7] - 具备长时记忆能力:即使在长视频中存在场景切换、镜头变换或角色暂时消失等复杂情况,也能记住每个主体的核心视觉特征,维持视觉一致性 [8] - 确保叙事连贯性:在涉及多个主体的叙事中,能避免错误重复引入角色或发生主体混淆,能准确理解并延续用户引入新主体后的叙事,让故事流畅推进 [9] - 核心技术设计包括叙事自适应记忆(NAM)与稀疏记忆激活(SMA):NAM能根据当前提示词智能检索最相关的视觉记忆;SMA则只激活最关键信息以提升效率,在一致性、质量和计算开销间取得平衡 [11] 定量分析结果 - 在“多提示词60秒长视频生成”任务中,MemFlow在VBench-Long评估体系下的质量总分为85.02,美学小分为61.07,均为所有对比模型中最高分 [13][14] - 在衡量核心能力的一致性评分上,MemFlow取得96.60的高分,处于领先位置 [17] - 通过逐段评估的CLIP分数显示,在视频后半段(如40-60秒),许多模型因误差累积导致语义一致性明显下滑,而MemFlow的分数能持续保持较高水平,证明了其动态记忆机制在维持长期叙事一致性方面的有效性 [15] - 消融实验表明,MemFlow采用的“NAM+SMA”策略,在主体一致性(98.01)和背景一致性(96.70)上均优于“无记忆”或仅“记住第一段”的方案,同时实现了比采用完整记忆库更高的运行效率(吞吐量FPS=18.7) [17][18] 定性分析结果 - 在引入“一位穿着休闲毛衣的女士”的多镜头场景中,MemFlow成功在多个镜头中维持了同一人物形象,避免了其他模型出现的人物外貌不一致或重复引入主体的问题 [19] - 在处理角色互动时(如沙滩上的孩子与小狗、家庭装饰圣诞树场景),MemFlow能确保核心角色在多段视频中保持一致,而基线模型则出现了引入多余或不一致新角色、质量漂移和主体遗忘等问题 [21] - 视觉对比直观证明了动态记忆的必要性:“无记忆”版本出现场景不一致;“只记第一段”方案无法保持后续新引入人物特征;只有MemFlow能平滑承接剧情并保证主体一致性 [23] 效率与综合表现 - MemFlow在单个NVIDIA H100上实现了FPS=18.7的实时推理速度,与无记忆的基线模型相比,性能损耗极小 [25] - 该模型在一致性、美学评分和文本对齐度等多项关键指标上,均达到SOTA(当前最优)水平 [25]
Minimax、智谱抢夺“全球大模型第一股”
华尔街见闻· 2025-12-22 19:14
公司IPO进程与竞争格局 - “全球大模型第一股”争夺战激烈 Minimax紧随智谱之后于12月21日公布港股IPO聆讯后招股书[1] - 公司重要优势在于深度挖掘海外C端市场 这与主要收入来自国内企业本地部署服务的智谱形成差异[6] - 公司能否夺下“全球大模型第一股”称号 市场正拭目以待[6] 公司业务与收入构成 - 公司以自研大模型组合为核心 推出了智能Agent、视频生成应用海螺AI、音频生成等应用[2] - AI视频生成应用海螺AI已成为重要收入来源 2025年前三季度收入达0.17亿美元(折合1.2亿元人民币) 占总收入比重32.6%[2] - 海螺AI在2025年前三季度付费用户数达31万 平均每名用户贡献56美元[2] - 公司收入高度依赖境外市场 2025年前三季度中国大陆以外市场贡献0.39亿美元 占总收入比重超过70%[2] 行业挑战与竞争态势 - AI视频生成应用面临用户留存率低的普遍挑战 例如Sora的1天、7天、30天、60天用户留存率分别仅为10%、2%、1%、0%[3] - 海螺AI的用户留存率同样不乐观 今年10月在新加坡苹果用户中的1天、7天、30天、60天留存率分别为22.57%、4.62%、0.8%和0.66%[4] - 海螺AI的创收水平目前不敌竞争对手 快手旗下“可灵”应用仅今年第二季度便实现超2.5亿元收入[2] - 行业应用需在专业创作与大众娱乐之间找到真正的立足点[4] 公司财务与运营状况 - 公司持续亏损 2024年及2025年前三季度净亏损分别为4.65亿美元和5.12亿美元[6] - 为减亏公司已减少应用推广 2025年前三季度销售支出为0.39亿美元 同比减少超25%[6] - 算力成本高昂 2025年前三季度销售成本和研发费用中的算力支出合计达1.8亿美元[6] - 海螺AI的定价分为“基础”套餐9.99美元/月和“至臻”套餐199.99美元/月[2]
日耗50万亿Token,火山引擎的AI消费品战事
36氪· 2025-12-19 18:31
火山引擎AI业务增长与市场地位 - 截至2025年12月,豆包大模型日均token使用量突破50万亿,较去年同期增长超过10倍 [3] - 2025年日均token使用量为16.4万亿 [4] - 火山引擎在MaaS(模型即服务)市场已成为国内份额第一,全球排名第三 [4] - 公司2024年营收规模超过110亿元,增速远超60%;2025年营收已超过200亿元 [8] - 预计到2030年,豆包大模型的Token调用量将比2025年末增长约100倍 [36] 大模型发展趋势:从单点能力到系统工程 - 大模型竞争已从单点能力较量进入系统工程的较量 [2] - 行业头部效应明显,约10%-20%的头部企业消耗了超过90%的Token,大模型服务渗透率不高 [36][37] - 公司提出在模型上做“减法”,将LLM、VLM、Thinking等所有模型能力集成进一个API接口,降低客户选择与集成复杂度 [38] - 模型能力的集成对基础模型要求更高,需要领先的基模作为支撑 [39] - 基础模型的能力直接决定下游应用天花板,例如豆包基础模型支撑了Seedance在语义理解、情感识别等方面的细致表现 [40][41] 视频生成模型的竞争维度与进展 - 2025年视频模型竞争焦点从卷参数、秒数,转向能否直接产出“可发布的完整作品” [10] - “声画同出”(声画同步)成为关键竞争因素,是客户的核心诉求之一 [15][28] - 火山引擎发布的视频生成模型Seedance 1.5 pro主打声画同步、开箱即用 [11] - 该模型在中文对口型匹配度、声音与人物环境适配度、沉浸感方面表现突出 [18][19] - 模型强化了对电影级运镜和动态张力的遵循,动作幅度及多镜头、多主体呈现高于行业水平 [20][25] - 通过多阶段蒸馏、量化等工程优化,Seedance 1.5 pro的端到端推理速度提升超过10倍,降低了生成成本 [28][46] Agent(智能体)工具链与生态建设 - 公司重点发布围绕Agent的工具链和生态服务,包括企业模型推理代工、强化学习平台、企业级AI Agent平台AgentKit及智能体工作站HiAgent [6] - AgentKit旨在降低开发者门槛,封装prompt工程、工具调用等底层能力,让开发者聚焦业务逻辑,并提供从创建、测试、部署到监控的完整运营闭环 [53] - 公司自身在客服、内容审核等业务中积累了Agent实践经验,并通过AgentKit对外输出 [53] - 演示案例显示,从零搭建并上线一个企业级电商客服Agent用时不到半小时 [54] - 公司目标是让每个企业都能拥有自己的AI助手,构建完整的AI基础设施和服务体系 [54] 商业化、工程优化与计费创新 - 行业通过工程优化提升MaaS服务“密度”,即在同等成本下提供更多价值 [45] - 公司推出“AI节省计划”计费模式,通过阶梯式折扣,帮助企业最高节省47%的成本 [47] - 公司认为未来计费方式不应仅按Token,而可能按交付的“智能”或思考长度分段付费 [47][48] - 公司从成立起就围绕AI云原生设计基础设施、产品架构和商业模式,将AI视为弯道超车的关键 [49][50] - AI基础设施竞争已演变为系统工程的较量,企业需要解决数据接入、任务编排、效果评估、成本控制等系列问题 [51] 内容生态与模型应用潜力 - Seedance 1.5 pro支持方言、对白和强表演场景,适合在豆包、即梦等C端产品中生成可供二次创作和分享的内容 [32] - 公司对“什么内容能火”的理解已转化为模型的训练目标 [33] - 随着视频生成模型成熟,AI生产视频将与C端产品联动,模型不仅作为技术工具,更具备演变为社交平台的潜力 [33]