Fire Attention推理引擎 - 财报，业绩电话会，研报，新闻

Fire Attention推理引擎

搜索文档

深思SenseAI· 2025-10-30 09:04

公司概况与市场地位 - 公司是AI推理服务提供商与推理层基础设施平台，定位为让模型运行更快、更便宜、更稳定，把推理变成类似云计算的计量服务 [5] - 成立3年时间，年收入已达2.8亿美元，公司估值达40亿美元，是AI推理赛道增长最快的独角兽 [1] - 目前已服务超过10,000家企业客户，每天处理超10万亿tokens，客户包括Cursor、Notion、Uber、Samsung、Shopify等明星产品 [1][5] 融资情况 - 2025年10月28日，公司宣布完成2.54亿美元C轮融资 [1] - 本轮融资由Lightspeed、Index Ventures和Evantic领投，英伟达、AMD、红杉资本、Databricks等知名机构跟投 [1][5] 创始团队与技术渊源 - 创始人乔琳是PyTorch框架的核心创建者，职业生涯始于IBM研究，后在LinkedIn担任技术主管，在Meta担任AI平台架构关键负责人，领导超300人工程师团队 [3][5] - 创始团队由六位参与过Meta PyTorch项目的资深工程师与一位前谷歌AI专家组成，堪称“梦之队” [6] - 公司核心洞察是“训练是科研的浪漫，推理才是产业的现金流”，创新焦点从“构建”转向“应用” [1][8] 核心产品与服务 - 第一类产品是Serverless推理云，面向开发者提供“即开即用”的API，按token计费，兼容数百个开源与私有模型 [11] - 第二类产品是专属部署方案，针对金融、医疗等高合规行业，提供独立GPU资源和专用网络隔离，按GPU秒计费 [11] - 第三类产品是微调与评测服务，提供从数据治理、训练微调到在线评测的一体化能力，按训练token计费 [12] 技术优势与性能表现 - 自研的Fire Attention推理引擎与Fire Optimizer可在硬件与算法之间自动搜索超过十万种配置组合，使推理速度提升10–40倍、成本下降数十个百分点 [12] - 以客户Cursor为例，在公司的推测解码技术支持下，模型处理代码的速度提升13倍，从“等半天”变成“几秒钟” [14] - 技术底座建立在深度GPU优化与架构级创新上，把延迟、吞吐、成本这些工程参数转化成企业可以签约的服务条款 [9][12] 市场竞争与差异化 - 直接竞争对手包括Together AI、Replicate、Groq、Baseten Labs等初创公司，以及AWS、Google Cloud、Azure等云巨头 [15] - 差异化优势不是“最快”或“最便宜”，而是“最优化”和“最易用”，支持数百个开源模型，跨多云多区域运行 [16] - 护城河是“客户数据+定制化能力”的飞轮，每个客户的微调数据都在优化系统，越用越好 [16] 行业趋势与未来战略 - 生成式AI带来的范式转移让创新焦点从“构建”转向“应用”，推理的市场规模将远超训练 [8] - 公司预测2025年将成为“Agent年”和“开源模型年”，各行业将涌现大量解决垂直问题的AI智能体 [20] - 未来核心战略是强化Fire Optimizer系统，特别强化在推理质量上的能力，通过个性化定制提升模型效果 [20] - 终极愿景是让每个开发者都能定制模型、注入数据，全面提升推理能力，让AI控制权回到构建者手中 [21][22]

3年干出280亿估值AI独角兽，AI创业的最佳路径是什么？

虎嗅· 2025-10-23 14:53

公司创始人背景与技术根基 - 创始人乔琳拥有复旦大学计算机科学本科与硕士学位，以及加州大学圣巴巴拉分校计算机科学博士学位，具备横跨中外的学术经历和扎实的理论功底 [1] - 在Meta公司主导PyTorch生态建设，带领300余人工程团队重构其底层架构，使其从科研工具成功适配数据中心、移动端及AR/VR设备，构建从模型研发到生产部署的全链路平台，成为全球AI框架生态的核心奠基人之一 [1][2] 公司创立与核心技术 - 乔琳离开Meta后创立Fireworks AI，专注于解决大模型推理的"效率痛点" [2] - 公司研发两大核心技术：Fire Attention推理引擎通过无损量化压缩技术将模型运行精度从16位降至8位甚至4位，大幅减少资源消耗；推测执行引擎通过一次预测多个词序列再反向验证，打破逐字生成的传统模式 [2][3] - 两项技术叠加使主流开源模型的推理速度较行业标杆vLLM提升12倍，同时成本降低53% [3] - 公司定位为同时具备开源灵活性与闭源易用性，并以"轻量"为优势提供定制化服务 [6] 商业模式与市场定位 - Fireworks AI采用"算力调度师"的轻资产模式，不直接购买硬件，而是整合全球科技公司、高校实验室的闲置GPU资源 [9] - 客户通过API上传数据即可调用整合后的算力，例如早期客户AI编程助手Cursor使用其API后，每月成本从200万美元买服务器降至15万美元，推理速度加快3倍 [9] - 公司专注于满足中小企业"小而精"的定制化需求，例如帮助银行调整信用评估模型以符合合规要求，或帮助药厂做分子模拟以适配特殊实验数据 [12] - 公司70%的客户是英伟达云服务覆盖不到的中小企业，其优势在于提供"懂行业的微调方案" [13] 业务进展与财务表现 - 2023年11月，公司自研的FireAttention推理引擎将GPU算力利用率从行业平均的65%提升至92%，使客户AI模型推理成本直接减半 [11] - 公司在算力突破后决定将新方向转向企业模型微调，此决策使其在半年后估值冲刺40亿美元 [11] - 至2024年，公司年化营收ARR突破1亿美元，并逼近3亿美元，80%的客户在复购时追加"微调服务" [10][15] - 知名客户包括Perplexity将70%的推理业务迁移至该平台，阿里Qwen团队使用其服务将原本需要两周的模型压缩调试缩短至3天完成 [10] 竞争格局与战略合作 - 英伟达从公司A轮投资方转变为竞争对手，于2024年3月收购推理服务商Lepton并推出自己的GPU云市场 [12] - 公司采取"差异化共存"战略，通过FireAttention引擎积累的微调数据反向为英伟达提供GPU优化建议，例如联合开发针对金融模型稀疏计算需求的专用算力调度插件，使GPU处理效率再提高15% [12] - 公司认为其核心机会在于细分市场，与巨头的通用算力服务形成互补 [13]

创业(US:VEMLY)

Artificial Intelligence

Fire Attention推理引擎

PyTorch

推测执行引擎

Artificial Intelligence

Fire Attention推理引擎

PyTorch

推测执行引擎

288亿独角兽即将诞生！复旦才女创业，被黄仁勋和“苏妈”同时看中

创业邦· 2025-08-13 11:46

公司估值与融资进展 - 公司正计划启动新一轮融资，目标估值达40亿美元（约合288亿元人民币）[2] - 若融资顺利达成，公司估值将在一年内实现超7倍飞跃[3] - 公司已获得红杉资本、Benchmark、英伟达、AMD、Databricks Ventures和MongoDB Ventures等顶级投资机构及产业资本的投资[3][25] - 公司成立至今已完成共计7700万美元的两轮融资，B轮融资后估值达5.52亿美元（约合40亿元人民币）[25] 创始人背景与团队构成 - 创始人乔琳（Lin Qiao）为复旦大学计算机本硕连读毕业生，拥有加州大学圣巴巴拉分校计算机博士学位[5] - 职业经历包括IBM研究职位、LinkedIn技术主管及Meta AI平台架构关键负责人，曾领导超过300人的工程师团队主导PyTorch框架研发及部署[5] - 创始团队由六位参与过Meta PyTorch项目的资深工程师与一位前谷歌AI专家组成核心技术班底[7] 商业模式与技术优势 - 公司定位为推理服务提供商（inference provider），帮助企业低成本、高效运行和定制开源大模型（如DeepSeek、Qwen、Llama）[12] - 通过租用第三方英伟达服务器并提供API接口，使开发者无需操心底层服务器即可调用模型推理能力[12] - 自研Fire Attention推理引擎等技术对GPU资源深度优化，提升模型推理速度并降低客户使用成本[12] - 核心产品Fire Optimizer工具可根据用户需求（质量、速度、成本）自动调整模型配置和部署方案[16] 财务表现与客户基础 - 公司近期年化收入突破2亿美元（约合14亿元人民币），即每月近1700万美元（约合1.22亿元人民币），预计年底增至3亿美元（约合22亿元人民币）[19] - 客户包括AI编程独角兽Cursor、AI搜索独角兽Perplexity等快速崛起的AI原生应用公司[19] 技术实现与案例应用 - 通过量化技术（如8位或4位精度运行模型）、推测执行（一次预测多个答案）及模型组合（小模型快速响应+大模型确认）优化推理效率[18][19] - 为Cursor提供底层技术支持，通过推测解码技术使其模型速度达每秒1000个token，比普通推理快13倍，比GPT-4版本快9倍[20][21] 行业竞争与挑战 - 直接竞争对手包括Together AI（年化营收1.5亿美元）和Baseten[23] - 英伟达收购推理服务商Lepton后直接切入公司核心业务领域[23] - 公司毛利率约50%（低于订阅制软件70%水平），主要因需预留大量服务器应对需求峰值及承受GPU云商家低价竞争[23] - 公司正通过优化GPU资源效率提升毛利率至60%[23] 战略方向与行业趋势 - 未来一年核心战略为强化Fire Optimizer系统，特别侧重推理质量个性化定制能力[26][27] - 创始人预测2025年将成为"Agent年"和"开源模型年"，各行业将涌现垂直AI智能体及开源模型井喷发展[28][29] - 公司重点解决AI智能体与开源模型结合的质量优化问题，简化开发者工作流程[30]