多模态大一统模型 - 财报，业绩电话会，研报，新闻

多模态大一统模型

搜索文档

36氪· 2026-01-22 20:49

公司概况与市场地位 - 公司Higgsfield是一家成立仅两年的AI视频初创公司，凭借“创作者优先”的商业策略在行业竞争中脱颖而出，成为新晋独角兽 [1] - 公司近期完成8000万美元增发，A轮融资总额达1.3亿美元，估值跃升至13亿美元 [1] - 公司增长迅猛，上线9个月用户超1500万，日生成视频450万条，年收入在两个月内翻倍，达到2亿美元 [1] 用户定位与商业模式 - 公司85%的用户是社交媒体营销人员，主要用途是制作品牌内容、短视频广告和营销素材 [1] - 公司核心路径是精准找到有商业变现需求的创作者与品牌，通过全栈工具满足其需求，构建“创作入口+工作流+分发激励”的完整闭环 [1] - 公司通过设立“创作者奖金”和官方转发优质案例来构建生态，以“每周最高10万美元奖金”直接激励创作者产出内容 [14] 产品功能与核心优势 - 公司产品是一个面向创作者和营销团队的全栈式AI视频工作流工具，核心是名为Canvas的工作台，用于完成创作与协作 [4] - 平台内置“多智能体协作系统”，包括编剧、导演、摄影师智能体，分别负责叙事结构、情绪节奏和镜头运动 [4] - 平台提供超过50种预设专业运镜模式库，如滑轨推进、FPV螺旋、360度环绕、子弹时间等，用户通过描述即可一键调用 [10] - 平台独有的“HCS模块”将ARRI、Red等6台顶级电影机和11支经典镜头的色彩科学内置其中，可一键获得电影感色彩 [10] - 平台提供“SOUL Inpaint”进行像素级画面编辑，支持对象替换、背景更换、动态追踪调优等，满足广告级控制需求 [10] - 围绕“Nano Banana”生态提供了超过2000个小工具，涵盖4K图像生成、视频修复、风格迁移等，并通过移动端App Diffuse满足零门槛创作需求 [11] 技术策略与底层架构 - 公司技术模式是将多个现成AI模型组合成“实用工具＋工作流”，而非开发基础模型 [12] - 平台有自研的“Soul”图像模型保证画面真实与风格一致，核心能力在于聚合并驯化如Sora 2、可灵、Minimax等外部主流模型，能在一次生成中并行调用不同模型 [12] - 该策略回避了技术竞赛死穴，将技术复杂性封装在后台，前台提供稳定、易用、可规模化复用的创作工具 [14] 商业化验证与客户反馈 - 上线5个月，公司年化收入达5000万美元，9个月ARR突破2亿美元，从1亿到2亿仅用时2个月 [16] - 一位电商用户评价用其产品在2小时内制作了50个产品视频，无需雇佣传统摄像师，这些视频被直接用于提升产品页面的吸引力和转化率 [16] 行业融资与竞争格局 - 2025年AI视频赛道融资热度持续攀升，多家核心企业披露大额融资 [17] - 爱诗科技B轮获阿里巴巴领投6000万美元，B+轮再获1亿元人民币，合计融资超7000万美元，其全球用户突破1亿，MAU达1600万，ARR达4000万美元 [17] - 生数科技完成数亿元人民币B轮融资，其Vidu视频大模型在评测中超越Sora、Runway登顶双榜，视频生成成本仅为同行十分之一，8个月内实现2000万美元ARR，累计生成视频超4亿条 [17] - 轻量化工具Pollo AI种子轮获1400万美元融资，上线7个月MAU达600万，已实现盈亏平衡 [18] - 纯视频大模型SandAI完成不低于1亿元人民币融资 [18] - 多模态创作平台LiblibAI完成1.3亿美元B轮融资，整合图像、视频、3D生成能力，孵化2000万AI创作者 [19] - 专业级AI视频公司Video Rebirth完成5000万美元融资 [19] - 海外公司Runway计划募资5-10亿美元，目标估值直指100亿美元，此前已于2025年4月完成3.08亿美元D轮融资，估值约35.5亿美元 [19] - Luma AI于2025年11月官宣完成9亿美元C轮融资，估值攀升至40亿美元 [21] - Pika Labs在2025年年底完成8000万美元A+轮融资 [22] - Stability AI于2025年10月完成首轮获4500万美元融资，迪士尼参与战略投资 [22] - 以色列企业Lightricks于2025年7月完成6000万美元战略融资，专项用于拓展AI电影工作室及生成式视频模型研发 [22] 行业趋势与未来展望 - AI生成视频正站在真正的爆发前夜，电影、广告、短视频行业对画面叙事的需求是刚性的 [3] - 单一的文生视频模型会逐渐融入统一的多模态“大一统”模型，竞争将从单点工具转向构建集生成、分发、变现于一体的平台化生态 [23] - 未来，针对电商、教育、医疗等特定场景的专业化微调模型将更具竞争力 [23]

专访Luma AI首席科学家：视频生成模型的游戏规则改变了

36氪· 2025-12-05 09:40

公司近期动态与融资情况 - Luma AI近期以40亿美元估值完成9亿美元C轮融资，由沙特公共投资基金(PIF)旗下机构HUMAIN领投，AMD Ventures、Andreessen Horowitz、Amplify Partners、Matrix Partners等老股东大额加注 [1] - 本轮融资资金将主要用于算力支出，以及人才和基础设施建设，以支持大规模多模态模型的训练和推理 [33][34][35] - 投资方HUMAIN正在沙特建设名为"Project Halo"的2GW人工智能超算集群，Luma AI将作为核心客户采用该算力，用于训练下一代多模态世界模型 [7] 公司发展历程与战略重心 - 公司成立于2021年，最初从3D生成起步，于2023年底转向视频生成模型 [5] - 2024年6月，公司推出面向C端用户的视频生成模型Dream Machine，以零推广费在4天内吸纳百万用户 [5] - 2024年9月，公司推出全球首个视频推理大模型Ray 3 [6] - 目前公司战略重心已从C端探索转向付费意愿更强、需求更刚性的B端专业用户，如影视、广告、内容制作机构 [5][17] - 公司团队规模约130人，其中30%–40%为技术研发人员 [36] 行业技术发展趋势：从生成到理解与推理 - 行业下一阶段的竞争焦点将从追求生成长视频和更高画质，转向提升模型对现实世界的理解与推理能力 [1][10] - 实现更强推理能力的关键是采用语言、图像与视频数据训练"多模态大一统"模型，多模态融合将推动模型能力从"生成"升级到"理解" [3] - 视频推理模型与传统生成模型的区别在于，前者能理解已有片段的场景空间、角色位置与镜头逻辑，从而生成物理上合理、衔接丝滑的视频 [2][11][12] - 图像生成领域在2025年已出现技术路径收敛，竞争焦点从架构设计转向高质量数据收集，视频生成领域预计在2026年将复现同样的收敛过程 [3][13][14] - 视频模型的数据量级可达几PB或几十PB，是文字数据量的几百上千倍，因此获取与处理大规模数据的能力成为关键挑战 [26] 商业模式与市场格局分析 - 视频生成模型的To C时代尚未到来，普通用户在新鲜感过后难以持续买单，Sora 2在30天的用户留存率仅为1% [3][19] - B端专业客户（如影视、广告公司）因AI能节省大量人力、时间和硬件投入，其付费意愿和粘性远高于C端用户 [18] - 在美国To B市场，由于政治、合规因素及成熟的企业服务接受度，实际竞争压力小于舆论场表现，市场供应商名单较短 [21][22] - 与3D生成业务相比，视频生成被验证具有更大的商业潜力和市场接受度，因3D数据量少、应用场景相对有限且大厂更倾向于自研 [24] 公司核心技术方向与产品规划 - 公司已将"多模态大一统模型"确立为下一阶段的核心方向，Ray 3很可能是其最后一代传统视频生成模型 [6][10] - 公司认为多模态大一统视频模型对于实现AGI的意义在于，能将AI对现实世界的理解和操作能力从纯语言空间扩展到视觉、动作、时间维度 [16] - 公司在视频生成领域的一项差异化优势是支持HDR（高动态范围），这对于电影制作等专业需求至关重要 [28] - 公司认为目前视频生成领域没有绝对的模型结构或方案能构成技术护城河，真正的差距体现在大规模工程实现、数据获取与处理能力上 [25][26] 行业竞争与创业环境展望 - 视频和多模态大一统模型赛道预计将像语言模型一样，最终收敛到少数几家头部公司 [29] - 在中国，从零开始进行基座模型创业的空间非常有限，因大厂在资金、人力、算力上优势太大；在美国，创业环境相对更好，美元基金仍有动力下注，退出机制也更清晰 [29]

多模态大一统模型

视频推理模型

AGI

Artificial Intelligence

Artificial Intelligence

Ray 3

Dream Machine