Workflow
生成式媒体
icon
搜索文档
顶级视频模型半衰期只有 30 天,但生成式媒体 infra 公司的收入却在一年增长了 60 倍
Founder Park· 2026-01-16 20:22
文章核心观点 - 生成式媒体(尤其是视频)的算力需求呈指数级增长,远超大型语言模型,这构成了行业的核心瓶颈和机遇 [4][5] - fal.ai 作为一家生成式媒体基础设施公司,通过统一API、云端推理平台及深度性能优化,解决了算力受限难题,并因此在2025年实现了收入和估值的爆发式增长 [4][6][7] - 公司通过差异化押注生成式视频、构建技术壁垒、优化算力成本、建立生态枢纽,成功卡位,并预测动画风格AI内容将比写实风格更早迎来爆发 [7][11][31][62] 公司概况与市场定位 - fal.ai 是一家为开发者和企业提供高性能AI生成媒体平台的infra公司,通过统一、低延迟的API和云端推理平台,让客户能高性能调用图像、视频、音频等多模态生成模型,而无需自建GPU基础设施 [4][8] - 公司成立于2021年,在早期(Sora发布前)就敏锐观察到图像与视频生成市场的快速增长潜力,并差异化地押注于此,将公司定位调整为“Generative Media Platform”,从而在视频模型爆发前完成生态卡位 [10][11] - 公司坚信生成式视频市场规模巨大,其底层逻辑是视频占据了互联网80%以上的带宽,且视频是一种信息压缩率更高、更符合人类直觉的媒介 [13] 技术壁垒与性能优化 - 视频生成是典型的“算力受限”场景,与LLM的“内存带宽受限”有本质区别 视频生成需要在成千上万个Token上同时进行去噪和注意力计算,完全占满GPU计算带宽 [15][16] - 算力需求对比悬殊:以顶尖LLM处理单个Prompt(约200 Token)算力为1单位,生成一张高质量图像是其100倍;生成一个5秒24fps标清视频(约120帧)是图像的100倍(即LLM的10000倍);生成4K超高清视频还需在此基础上再增加10倍 [5][17][18][19] - 公司组建了约占10%人力的精锐编译器团队,专注于极致性能优化,通过构建核心的Tracing Compiler和基于Templated Kernels的动态替换方案,其推理引擎性能通常领先PyTorch等通用框架3到6个月 [19][21] - 公司正将低延迟优化经验从音频生成扩展至实时视频生成领域,以解决亚秒级延迟的infra挑战 [22][23] 商业表现与融资情况 - 公司在2025年实现爆发式增长:截至2025年7月,过去12个月收入增长60倍;2025年7月至12月期间,公司估值翻了三倍 [6] - 2025年12月,完成由红杉资本领投的1.4亿美元D轮融资,估值达到45亿美元 [6][8] - 根据融资历史表:2025年10月,公司收入已超过2亿美元;为超过100万名开发者和100多家企业客户提供支持 [10] 成本优势与算力管理 - 公司管理着分布在约35个不同数据中心的异构计算资源,通过自研的从编排器到CDN的一整套软件系统,将其整合成统一的“分布式超级计算”集群进行智能调度 [24] - 核心调度逻辑包括基于Warm Cache状态进行路由,将请求精准分发给已加载特定模型权重的GPU节点,避免重复加载的巨大开销 [24] - 通过同时与Hyperscalers(超大规模云厂商)和Neo-clouds(新兴云厂商)合作进行套利,公司获得了极具竞争力的算力成本,因为Neo-clouds的价格有时比Hyperscalers低2倍甚至3倍 [28][30] 生态卡位与平台价值 - 视频生成领域竞争格局极不稳定,顶级视频模型的“半衰期”仅为30天,导致模型排名持续变动 [31] - fal.ai平台同时运行着超过600个生成式媒体模型,成为连接多方模型供应商的单一枢纽,使开发者无需受制于单一模型,降低了技术迭代风险 [31][33] - 平台模型生态呈现长尾效应,任何时刻都有接近50个活跃模型被频繁使用,同时存在大量具备特定“人格”或特性的长尾模型 [34] - 公司已成为顶级模型实验室(如DeepMind/Veo、Kling、MiniMax、OpenAI/Sora)的关键分发渠道和合作伙伴,经常能获得新模型的独家首发权,形成了吸引开发者与吸引模型方的正向飞轮效应 [39][43] 用户行为与典型用例 - 在前100名客户中,平均每个客户在同一时间会使用14个不同的模型 [44] - 专业创作者的工作流正在复刻传统动画制作流程:先使用文生图模型迭代确定视觉风格和故事板,再使用视频模型在关键帧之间进行插值生成动态视频 [44] - 为降低复杂工作流构建门槛,公司与Shopify合作开发了No-code workflow builder(无代码工作流构建器) [46] - 教育是潜力巨大的蓝海市场,例如Adaptive Security公司利用平台动态生成高度个性化的安全培训视频 [47][48] - 游戏领域,Text-to-Game被视为Text-to-Video的自然延续,未来可能出现“一次性”的超休闲游戏形态 [52][53] - AI原生IP正在崛起,例如Italian Brainrot这类由社区利用AI生成的无主IP,通过海量生成和社区筛选机制,已展现出商业价值 [54] 行业未来判断 - 视频模型架构面临推理效率瓶颈,当前时间维度压缩比仅约4倍,必须大幅提升压缩率(类似图像模型从像素空间转向潜在空间)才能实现规模扩展,满足4K实时生成所需的百倍算力提升 [58][59] - 在生成式媒体领域,算力将比数据先耗尽,因为互联网上拥有极度丰富且免费的视频数据 [60][61] - 预测一年内将涌现出完全由AI生成(含人类剪辑)的电影级短片(约20分钟) [62] - 动画、动漫或卡通风格将比照片级写实风格更早迎来爆发,因为AI大幅降低了传统高昂的动画制作成本,且动画风格对人物表情等细节的容错度更高,更利于故事讲述 [62][63] - 在视觉特效领域,AI生成纯物理现象(如爆炸、建筑倒塌)已经非常完美 [64]
当顶级视频模型半衰期只有 30 天,fal.ai 为什么收入反而一年增长 60 倍?
海外独角兽· 2026-01-16 16:05
公司概况与市场定位 - 公司是一家为开发者和企业提供高性能AI生成媒体平台的基础设施公司,通过统一、低延迟的API与云端推理平台,提供图像、视频、音频等多模态生成模型的高性能调用能力[2] - 平台托管了数百个先进模型,包括DeepMind(Veo)、Kling、MiniMax以及OpenAI(Sora)等,使客户无需自建或运维GPU基础设施便可快速部署复杂模型[2] - 公司成立于2021年,在早期市场普遍过度关注LLMs时,敏锐地观察到图像与视频生成客户增长极快,选择在该领域加倍下注,并在Sora发布前就将公司定位明确调整为“Generative Media Platform”[5][6] 财务表现与融资历程 - 截至2025年7月,公司在过去12个月收入增长达60倍[2] - 2025年7月至12月期间,公司估值翻了三倍,并在12月完成1.4亿美元D轮融资,估值达到45亿美元[2][4] - 根据融资表格数据:2025年12月D轮融资1.4亿美元,估值45亿美元,截至10月收入已超过2亿美元;2025年7月C轮融资1.25亿美元,估值15亿美元,过去两个月收入增长50%以上;2025年2月B轮融资4900万美元;2024年9月A轮融资1400万美元,估值8000万美元,年化收入接近1000万美元,较1月增长近10倍[5] 技术壁垒与性能优化 - 视频生成模型是典型的“算力受限”场景,其算力需求远超LLM:生成一张图像的算力是处理单个LLM Prompt(约200 Token)的100倍;生成一个5秒、24fps的标准清晰度视频算力是图像的100倍,是LLM的10000倍;生成4K视频算力需求再增加10倍[12][13] - 公司组建了约占10%人力的编译器团队,专注于极致性能优化,其推理引擎通常能领先PyTorch等通用框架3到6个月[13][15] - 公司构建了核心的Tracing Compiler和基于Templated Kernels的动态替换方案,在运行时将通用计算模式替换为高度特化的专用Kernels,以提升异构硬件上的执行效率并确保输出质量稳定[15] - 公司正将底层优势从离线生成扩展至Real-time Media领域,利用优化Speech-to-speech模型时积累的低延迟经验来解决实时视频生成的infra挑战[16] 成本优势与基础设施策略 - 公司管理着分布在约35个不同数据中心的异构计算资源,并通过自研的软件系统将其整合成统一的“Distributed Super Computing”集群进行智能调度[17] - 智能调度核心逻辑包括基于Warm Cache状态进行路由,将请求精准分发给已加载特定模型权重的GPU节点,避免重复加载的巨大开销[17] - 公司战略性地避开传统Hyperscalers,深度利用Neo-clouds,因为后者成本有时比前者低2倍甚至3倍,这使公司在GPU资源紧缺环境下获得了极具竞争力的算力成本[20][23] 生态卡位与商业模式 - 公司平台同时运行着超过600个生成式媒体模型,成为连接多方模型供应商的单一枢纽,使开发者不再受制于任何单一模型[24] - 平台上任何时刻都有接近50个活跃模型被频繁使用,此外还有大量具备特定特性的长尾模型,市场呈现显著的长尾效应而非赢家通吃[26] - 顶级视频模型的“半衰期”仅为30天,竞争格局极度不稳定,公司作为多模型平台降低了开发者绑定单一模型的风险[24] - 公司已成为顶级模型实验室(如DeepMind、Kling、MiniMax、OpenAI)的关键分发渠道和合作伙伴,经常能获得新模型的独家首发权或长期独家合作,形成了吸引开发者与吸引模型厂商的正向飞轮效应[28][31] 用户行为与工作流 - 在公司前100名客户中,平均每个客户在同一时间会使用14个不同的模型[32] - 开发者和创作者正在复刻传统动画制作流程:先使用Text-to-Image模型迭代确定视觉风格并生成故事板,再使用视频模型在静态图像之间进行插值以生成动态视频[32] - 公司与Shopify合作开发了No-code workflow builder,降低复杂工作流构建门槛,便于非技术人员快速测试创意和比较模型效果[34] 应用场景与市场潜力 - 视频占据了互联网80%以上的带宽,公司认为生成式视频的市场规模理应与LLM相当甚至更为庞大[8] - 教育市场是巨大的蓝海,案例显示已有公司利用平台动态生成个性化的安全培训视频,AI Native Studios也在利用AI制作高质量的教育内容(如圣经故事视频)[10][35] - 在游戏领域,Text-to-Game将是Text-to-Video的自然延续,未来可能出现用户指令生成的“一次性”超休闲游戏[37] - 完全由AI生成的无主IP(如Italian Brainrot)通过社区生成和筛选机制崛起,并在社交媒体和Roblox游戏上产生了可观的商业价值[37][38] 行业发展趋势判断 - 视频模型架构的瓶颈在于压缩率,目前时间维度压缩比率大约只有4倍,必须大幅提升压缩率才能从根本上驱动推理和训练效率的提升,这是实现4K实时生成(需要现有基础上100倍以上算力支持)的关键[39][40] - 在生成式媒体领域,行业将先耗尽算力,后耗尽数据,因为互联网上拥有极度丰富且免费的视频数据供给[41] - 预测在不到一年时间内,市场将能看到完全由AI生成(含人类剪辑)的电影级短片,时长约20分钟[41] - 动画、动漫或卡通风格将比写实风格更早迎来爆发,因为AI大幅降低了昂贵的动画制作成本,且动画风格对表情精确度要求更宽容,技术实现和观众接受度更具优势[42]
喝点VC|红杉对话全球最火的AI生成媒体平台Fal CEO:当内容生成变得无限时,有限的东西反而会更有价值
Z Potentials· 2026-01-13 11:40
文章核心观点 文章通过访谈生成式视频开发者平台Fal的核心团队,深入探讨了生成式视频技术的发展现状、面临的挑战、市场动态及未来展望。核心观点认为,生成式视频是一个被低估但潜力巨大的市场,其技术栈、生态模式和应用场景均与大语言模型存在根本差异,目前正处于从早期技术突破向规模化应用过渡的关键阶段,动画、教育、广告等领域将率先实现规模化落地 [4][5][7]。 生成式视频市场被忽视的原因与发展契机 - 生成式视频市场早期被忽视的原因包括:缺乏清晰的行业应用场景,以及三年前的研发投入和增长速度较大语言模型慢 [6] - 当前模型能力已从“玩具级”提升至拥有真实行业应用场景,预计将成为一个拥有独特应用场景和客户群体的庞大市场 [6] - 视频占据了互联网超过80%的带宽,预示生成式视频未来拥有同样庞大的市场规模 [5] - 人类是视觉导向的生物,视频相比文本能更高效地传递信息,尤其在教育等领域潜力巨大 [8][9] 推理引擎的核心技术与优化逻辑 - 公司构建的推理引擎是一个跟踪编译器,通过追踪模型执行过程,识别通用模式并替换为优化的专用内核,从而在性能基准测试中稳居榜首 [10][11] - 团队专注于编写能将性能提升9%到50%的通用化模板内核,并确保优化不损失媒体输出质量 [11] - 与大语言模型受内存带宽限制不同,视频扩散模型的瓶颈在于GPU计算资源饱和,需要编写更高效的内核以充分利用算力 [12] - 技术领先的关键在于对生成式媒体领域的极度专注,这使公司能比竞争对手更早适配新硬件(如H200 GPU)并抓住模型细微变化带来的优化机会,保持3到6个月的领先窗口期 [13][14] 图像与视频模型的运行差异及算力需求 - 算力需求对比悬殊:以生成200个token文本的算力为基准单位1,生成一张图像约为100倍,生成一段5秒(24帧)视频约为12000倍,若为4K分辨率则再增加10倍至120000倍 [19] - 图像模型基础设施相对简单,而实时视频生成(以24帧/秒流式生成)对低延迟和稳定算力提出了全新挑战 [20][21] - 视频模型参数规模正在增长,开源模型已达约300亿参数,未来将更依赖分布式计算,但目前分布式部署需求相对较低(通常只需8个或更少节点) [22] 视频模型的长尾生态与应用特性 - 平台上同时有超过600个生成式媒体模型可供开发者访问,模型生态呈现显著的长尾效应 [4][23] - 特定任务(如超分、图像编辑、文本转视频)需要专属模型优化,这造就了生态的多样性,同一任务下还有不同“个性”的模型,任何时候都有近50个活跃模型 [23][24] - 模型市场格局动态变化,排名前五的模型的半衰期仅为30天 [26] - 客户偏好两类模型:大型昂贵的高质量模型(如Sora、Cling)和更便宜、参数较小的“主力模型”,后者用于高吞吐量应用场景 [25] 生成式媒体的市场动态与合作模式 - 公司平台定位为连接开发者(需求方)与模型供应商(供应方)的市场,是访问多个模型的“单一入口” [30][31] - 作为首批积累大量开发者的平台,其开发者生态和忠诚度吸引了模型研究实验室将其作为分销渠道,形成了良性循环 [30] - 凭借强大的营销体系和行业领导地位,公司能获得模型的“零日发布权限”甚至独家发布权限 [32] - 视频领域开源生态活跃,始于Stable Diffusion的开源成功,开源有助于构建强大生态系统,带来营销优势和用户粘性,部分模型提供商采取部分开源、部分闭源的策略 [33] 生成式视频的开发者工作流与实践案例 - 平台上前100名客户平均同时使用14个不同的模型,工作流复杂多样 [36] - 提供无代码工作流构建器(与Shopify合作开发),方便非技术成员通过可视化界面尝试和比较模型,并将工作流通过API集成到产品中 [36] - 专业工作室和营销团队倾向于使用开源模型,以便对模型各部分进行深度替换和控制,实现定制化,工作流类似复杂的节点式UI [37] - 常见工作流包括:通过图像模型迭代美学风格并生成故事板,再由视频模型进行插值生成连贯视频 [38][39] - 已有个人用户在创作者平台上的花费高达50万美元,超过一些小型制作工作室 [40] 生成式媒体的应用场景与未来展望 - 应用场景广泛,包括:动态培训系统(如安全培训)、原生AI工作室(如生成式视频圣经应用)、设计与生产力工具集成、广告(UGC风格、传统风格及程序化个性化广告)等 [41][42] - 教育被视为潜力巨大的市场,视频内容能更简洁、可视化地传递知识,可能改变学习方式 [9][43] - 关于IP价值,中期来看,拥有技术人才、强大IP储备和专业制作能力的好莱坞传统IP持有者仍具优势;同时,新的AI生成IP(如互联网社区创造的稀有角色)也在涌现 [43][44][46] - 技术发展有望避免“无限劣质内容”,个性化、有人情味的体验(如Sora 2聚焦朋友、宠物共享)将更具吸引力 [46] 生成式视频的未来时间线与技术突破 - 结合现有故事板技术和先进视频模型,在不到一年内有望看到高质量、时长不到20分钟的短片 [48] - 动画、动漫或卡通类等非照片级真实感内容会最先实现AI生成规模化 [5][49] - 完全由AI生成(无人拍摄,但有人类编辑)的好莱坞级别长片电影仍需时间,但视觉特效等昂贵环节已能通过AI高效生成 [47][50] - 实时生成的交互式视频游戏(“超超休闲游戏”)被认为离实现不远,但AAA级质量游戏可能还需3到4年 [53][54] - 要实现大规模、高质量、低成本应用(如4K视频实时生成),需要在模型架构(如提升时间维度压缩比)和工程规模化上取得突破,计算能力或架构需要提升100倍以上 [54][55][56]
2025最大AI赢家的凡尔赛年度总结,哈萨比斯Jeff Dean联手执笔
量子位· 2025-12-24 08:42
文章核心观点 - 2025年是人工智能从工具转向实用手段的关键一年,标志着AI进入与人类协作、行动和探索的推理与Agent时代 [10][11] - 谷歌通过其在基础模型、产品集成、科学研究及应对全球挑战等多方面的突破,系统性地展示了AI正在演变为可协作、可行动并参与科学发现的智能系统 [3][13] 基础模型能力突破 - 谷歌在2025年于模型推理、多模态理解、生成能力及效率方面取得突破性进展,显著提升了模型性能 [4][14][15] - Gemini系列模型持续迭代:3月发布Gemini 2.5,11月推出迄今最强大的Gemini 3 Pro,12月发布融合专业级推理与Flash级别效率的Gemini 3 Flash [16][17][19] - 模型在多项基准测试中创下纪录:Gemini 3 Pro在LMArena排行榜位居榜首,在MathArena Apex创下23.4%的最新纪录,并在人类终极考试、GPQA Diamond等测试中取得突破性分数 [18][19] - 通过开源Gemma系列模型,使实用的AI技术更易于获取,该系列引入了多模态能力,大幅增加了上下文窗口,并拓展了多语言功能 [21] AI产品的深度集成与创新 - AI已广泛融入谷歌主要产品,推动其从工具转向实用工具,并以全新的强大Agent能力改造产品组合 [5][22][23] - 在软件开发领域,引入能与开发者协作的Agent系统(如Google Antigravity),标志着AI辅助软件开发进入新时代 [23] - 在消费产品中,从Pixel 10的AI功能、搜索的AI模式更新,到Gemini应用和NotebookLM等创新产品,均增加了深度研究等高级功能 [23] - 2025年是生成式媒体变革之年,AI为创意提供全新能力:视频、图像、音频和虚拟世界的生成式模型及工具变得更高效和广泛应用 [24] - 推出突破性的Nano Banana和Nano Banana Pro,在原生图像生成与编辑方面展现前所未有的能力 [24] - 与创意行业合作开发Flow和Music AI Sandbox等工具,并升级Gemini图像编辑功能,引入Veo 3.1、Imagen 4和Flow等新型生成式媒体模型,拓展创意可能性 [25] 推动科学与数学发展 - 2025年是AI科学进步的标志性一年,在生命科学、健康、自然科学和数学领域取得诸多进展 [7][26][27] - 在基因组学领域,利用AI解读复杂数据;AlphaFold迎来问世五周年,该系统已被190多个国家的300多万名研究人员使用 [28] - Gemini的高级思考能力(如Deep Think)在数学和编程领域取得历史性进展,能够理解需要深度抽象推理的问题,并在两项国际竞赛中达到金牌水平 [30][31] - 谷歌实验室进行了一系列前沿实验,例如:用于品牌营销的Pomelli、将提示转化为UI的Stitch、异步编码Agent Jules以及3D视频通信平台Google Beam [29] 推进计算和物理世界研究 - 在量子计算领域取得迈向实际应用的进展,例如Quantum Echoes项目 [12][32] - 谷歌员工Michel Devoret等人因20世纪80年代的基础量子研究共同获得2025年诺贝尔物理学奖 [33] - 推进核心AI基础设施,重点关注硬件突破和能源效率:推出为推理时代打造的新型TPU Ironwood,采用AlphaChip方法设计 [33] - 在机器人技术和视觉理解方面的研究将AI Agent带入物理和虚拟世界,推出了基础性的Gemini Robotics模型、更先进的Gemini Robotics 1.5以及成为通用世界模型新前沿的Genie 3 [33] 应对全球性挑战与机遇 - 利用先进的基础模型和Agent推理来应对全球关键挑战,加深对地球系统的理解,并在气候韧性、公共卫生和教育等领域提供解决方案 [35][36] - 具体应用包括:洪水预报信息覆盖全球150个国家超20亿人口;最先进的天气预报模型WeatherNext 2生成预报速度快8倍,分辨率达1小时,并支持实验性的气旋预测 [36] - 与合作伙伴携手,将AI驱动的科学进展更贴近患者,为疾病管理和疗法研发开辟新途径 [38] - AI被证明是教育领域的强大工具,通过LearnLM和Gemini中的引导式学习,促成新的理解形式并激发学生好奇心 [39] - 将Gemini最强大的翻译能力引入谷歌翻译,提供更智能、自然且准确的翻译,并试点新的语音互译功能 [40] 重视责任与安全及开放生态 - 谷歌始终强调将研究突破与责任和安全相结合,随着模型能力增强,持续改进工具、资源及安全框架以预测并降低风险 [8][42][43] - Gemini 3是谷歌迄今为止最安全的模型,经过了最全面的安全评估 [44] - 探索通往AGI的负责任之路,将准备工作、主动风险评估以及与更广泛的人工智能社区合作置于优先地位 [44] - 认为负责任地推进AI需要全社会协作:2025年与顶尖AI实验室合作成立Agentic AI基金会,支持开放标准以确保Agentic AI拥有负责任且具备互操作性的未来 [45][46] - 在教育、科研及创意领域广泛合作:与高校(如加州大学伯克利分校、耶鲁大学)合作推动前沿研究和AI技能教育;与电影制作人等创意开发者合作探索新叙事方式 [46]