喝点VC|红杉对话全球最火的AI生成媒体平台Fal CEO:当内容生成变得无限时,有限的东西反而会更有价值
Z Potentials·2026-01-13 11:40

文章核心观点 文章通过访谈生成式视频开发者平台Fal的核心团队,深入探讨了生成式视频技术的发展现状、面临的挑战、市场动态及未来展望。核心观点认为,生成式视频是一个被低估但潜力巨大的市场,其技术栈、生态模式和应用场景均与大语言模型存在根本差异,目前正处于从早期技术突破向规模化应用过渡的关键阶段,动画、教育、广告等领域将率先实现规模化落地 [4][5][7]。 生成式视频市场被忽视的原因与发展契机 - 生成式视频市场早期被忽视的原因包括:缺乏清晰的行业应用场景,以及三年前的研发投入和增长速度较大语言模型慢 [6] - 当前模型能力已从“玩具级”提升至拥有真实行业应用场景,预计将成为一个拥有独特应用场景和客户群体的庞大市场 [6] - 视频占据了互联网超过80%的带宽,预示生成式视频未来拥有同样庞大的市场规模 [5] - 人类是视觉导向的生物,视频相比文本能更高效地传递信息,尤其在教育等领域潜力巨大 [8][9] 推理引擎的核心技术与优化逻辑 - 公司构建的推理引擎是一个跟踪编译器,通过追踪模型执行过程,识别通用模式并替换为优化的专用内核,从而在性能基准测试中稳居榜首 [10][11] - 团队专注于编写能将性能提升9%到50%的通用化模板内核,并确保优化不损失媒体输出质量 [11] - 与大语言模型受内存带宽限制不同,视频扩散模型的瓶颈在于GPU计算资源饱和,需要编写更高效的内核以充分利用算力 [12] - 技术领先的关键在于对生成式媒体领域的极度专注,这使公司能比竞争对手更早适配新硬件(如H200 GPU)并抓住模型细微变化带来的优化机会,保持3到6个月的领先窗口期 [13][14] 图像与视频模型的运行差异及算力需求 - 算力需求对比悬殊:以生成200个token文本的算力为基准单位1,生成一张图像约为100倍,生成一段5秒(24帧)视频约为12000倍,若为4K分辨率则再增加10倍至120000倍 [19] - 图像模型基础设施相对简单,而实时视频生成(以24帧/秒流式生成)对低延迟和稳定算力提出了全新挑战 [20][21] - 视频模型参数规模正在增长,开源模型已达约300亿参数,未来将更依赖分布式计算,但目前分布式部署需求相对较低(通常只需8个或更少节点) [22] 视频模型的长尾生态与应用特性 - 平台上同时有超过600个生成式媒体模型可供开发者访问,模型生态呈现显著的长尾效应 [4][23] - 特定任务(如超分、图像编辑、文本转视频)需要专属模型优化,这造就了生态的多样性,同一任务下还有不同“个性”的模型,任何时候都有近50个活跃模型 [23][24] - 模型市场格局动态变化,排名前五的模型的半衰期仅为30天 [26] - 客户偏好两类模型:大型昂贵的高质量模型(如Sora、Cling)和更便宜、参数较小的“主力模型”,后者用于高吞吐量应用场景 [25] 生成式媒体的市场动态与合作模式 - 公司平台定位为连接开发者(需求方)与模型供应商(供应方)的市场,是访问多个模型的“单一入口” [30][31] - 作为首批积累大量开发者的平台,其开发者生态和忠诚度吸引了模型研究实验室将其作为分销渠道,形成了良性循环 [30] - 凭借强大的营销体系和行业领导地位,公司能获得模型的“零日发布权限”甚至独家发布权限 [32] - 视频领域开源生态活跃,始于Stable Diffusion的开源成功,开源有助于构建强大生态系统,带来营销优势和用户粘性,部分模型提供商采取部分开源、部分闭源的策略 [33] 生成式视频的开发者工作流与实践案例 - 平台上前100名客户平均同时使用14个不同的模型,工作流复杂多样 [36] - 提供无代码工作流构建器(与Shopify合作开发),方便非技术成员通过可视化界面尝试和比较模型,并将工作流通过API集成到产品中 [36] - 专业工作室和营销团队倾向于使用开源模型,以便对模型各部分进行深度替换和控制,实现定制化,工作流类似复杂的节点式UI [37] - 常见工作流包括:通过图像模型迭代美学风格并生成故事板,再由视频模型进行插值生成连贯视频 [38][39] - 已有个人用户在创作者平台上的花费高达50万美元,超过一些小型制作工作室 [40] 生成式媒体的应用场景与未来展望 - 应用场景广泛,包括:动态培训系统(如安全培训)、原生AI工作室(如生成式视频圣经应用)、设计与生产力工具集成、广告(UGC风格、传统风格及程序化个性化广告)等 [41][42] - 教育被视为潜力巨大的市场,视频内容能更简洁、可视化地传递知识,可能改变学习方式 [9][43] - 关于IP价值,中期来看,拥有技术人才、强大IP储备和专业制作能力的好莱坞传统IP持有者仍具优势;同时,新的AI生成IP(如互联网社区创造的稀有角色)也在涌现 [43][44][46] - 技术发展有望避免“无限劣质内容”,个性化、有人情味的体验(如Sora 2聚焦朋友、宠物共享)将更具吸引力 [46] 生成式视频的未来时间线与技术突破 - 结合现有故事板技术和先进视频模型,在不到一年内有望看到高质量、时长不到20分钟的短片 [48] - 动画、动漫或卡通类等非照片级真实感内容会最先实现AI生成规模化 [5][49] - 完全由AI生成(无人拍摄,但有人类编辑)的好莱坞级别长片电影仍需时间,但视觉特效等昂贵环节已能通过AI高效生成 [47][50] - 实时生成的交互式视频游戏(“超超休闲游戏”)被认为离实现不远,但AAA级质量游戏可能还需3到4年 [53][54] - 要实现大规模、高质量、低成本应用(如4K视频实时生成),需要在模型架构(如提升时间维度压缩比)和工程规模化上取得突破,计算能力或架构需要提升100倍以上 [54][55][56]