AI Labs 都在用,ClickHouse 能成为 AI 日志的实时分析引擎吗?
海外独角兽·2026-05-13 20:24

公司概览与近期表现 - 过去18个月,ClickHouse是开源数据基础设施领域最热门的公司之一,其云服务年度经常性收入在2025年保持250%的同比增速,第三方估计ARR从2024年中的约1500万美元增长至2025年末的约1.6亿美元,付费云客户从1000个突破至超3000个 [2] - 公司在2026年1月完成D轮融资,单轮融资4亿美元,估值达到150亿美元 [2] - ClickHouse并非新公司,其技术源于2009年俄罗斯搜索引擎Yandex的内部项目,2016年开源,2021年从Yandex拆分并开始商业化 [2] 增长驱动力与市场机遇 - 架构契合AI浪潮:ClickHouse适合处理追加写入、几乎不删改的事件流上的高基数扫描、过滤和聚合查询,而大型语言模型推理日志(每次API调用产生的token消耗、延迟等几十个字段)恰好是此类数据,这构成了其爆发的本质原因 [2] - 领先AI Labs的采用:Anthropic在Claude 3/3.5发布期间,因每天PB级日志导致原有APM系统不堪重负,最终迁移至ClickHouse并共建了物理隔离的私有化部署方案;OpenAI也在其数十个分片的ClickHouse集群上构建了内部可观测性方案,这些头部AI公司发现ClickHouse是少数能在PB级数据量下保持毫秒级查询的引擎 [2] - 显著的平台化扩张:公司通过收购从单一的OLAP引擎扩展为数据平台,2025年上半年收购HyperDX推出ClickStack进入可观测性市场,2026年1月收购Langfuse占据开源LLM可观测性市场,同日还发布了Postgres Service接入OLTP,底层均使用其列式存储引擎,开始与Snowflake、Databricks等平台竞争 [3][6] 产品与市场定位 - 三条核心产品线:ClickHouse Cloud(核心托管服务)、ClickStack(统一可观测性平台)、以及通过收购获得的Langfuse(开源LLM工程平台)[8][14][19] - 市场总览: - 实时OLAP:总市场规模约40-50亿美元,是ClickHouse已验证的基本盘和过去的主要用例 [5] - 可观测性:总市场规模约200亿美元,被视为第二增长曲线,公司通过收购HyperDX推出ClickStack,直接对标Datadog、Splunk、Grafana等产品 [6] - AI可观测性:总市场规模约20亿美元,是新兴且碎片化的早期市场,公司通过收购Langfuse获得开源领导者地位 [6] - 核心产品详情: - ClickHouse Cloud:提供从开发测试到大型企业的全场景服务,典型场景为AI公司实时处理每秒数十万条推理日志,实现数据产生后几秒内可查询、毫秒级返回结果,这是Snowflake/Databricks在架构层面难以做到的体验 [8][9] - ClickStack:作为统一可观测性平台,具备日志管理、分布式追踪、指标监控和会话回放四大核心能力,因其所有数据共享同一个ClickHouse存储引擎,具备强大的跨信号关联分析能力,可将从“发现异常”到“定位根因”的路径缩短一个数量级 [14][15][16] - Langfuse:收购时已拥有2000+付费客户、19家财富50强客户、2万+ GitHub Stars和2600万+ SDK月安装量,提供LLM全链路追踪、成本跟踪、提示词管理、评估等六大核心功能,其评估能力是核心差异化之一 [19][20] 商业化进展与财务表现 - 商业化加速:ARR在18个月内完成10倍增长,从1500万美元增至1.6亿美元,付费客户数增长3倍至3000+,平均合同价值扩张3-4倍 [7][8] - 定价策略:公司在2025年1月对ClickHouse Cloud完成约30%的综合提价,并新增了数据传出收费 [7][34] - 销售模式转型:公司正从纯产品驱动增长模式向产品驱动增长与企业销售混合模式转型,2025年7月聘请前Atlassian首席营收官担任CRO,开始系统化进行企业级销售,大客户直销渠道客户数占20-30%,但贡献了50%以上的收入 [30][31] - 基于用量的定价:收入主要来源于计算(占65-75%)、存储(占15-20%)和数据传输(占5-8%),计算单价约为0.69美元/单元·小时,同等算力下比Snowflake便宜约88% [32][33][34] 竞争优势与客户反馈 - 性能与成本优势:专家访谈共识显示,ClickHouse在实时OLAP性能上具有碾压级领先优势,客户实测有5-20倍速度优势;成本优势是采购决策的第一驱动力,例如德意志银行从kdb迁移后年费从300万美元降至20万美元,Nike确认其比Splunk便宜5倍以上 [37] - 架构契合度:其追加写入、不可变事件流的设计与可观测性、金融时序、产品分析等高增长场景天然匹配,是结构性优势 [37] - 可扩展性验证:PB级可扩展性已在生产环境得到验证,例如Goldsky处理2PB数据,沃尔玛处理40TB+数据 [37] 面临的挑战与风险 - 平台完整性缺失:缺乏AI/ML、ETL及市场生态,若保持专用工具定位,其总可寻址市场可能仅占数据分析支出的3-5% [42] - 企业就绪度瓶颈:云服务版本在满足大企业敏感数据安全审批方面存在挑战,例如沃尔玛明确表示Cloud版无法通过其安全审批,导致部分大企业被迫停留在开源自托管模式 [43][44] - 护城河侵蚀:核心优势正被SingleStore、StarTree等竞争对手快速复制,产品日趋可互换,最满意的客户也在密切关注竞品定价变化 [43] - 开发者体验两极化:深度工程师评价很高,但对企业或非技术用户门槛过高,自下而上的增长模式天然排斥首席信息官级别的自上而下采购 [43] 技术特点与适用场景 - 核心技术设计:采用列式存储、向量化执行和MergeTree引擎的组合,使其特别适合“大规模、只追加、实时聚合查询”的场景,典型压缩率在10:1到20:1,存储成本显著低于Elasticsearch等 [52][53][54] - 核心任务类型:专精于实时分析,要求系统具备高吞吐数据写入能力和对刚写入数据的亚秒级查询能力,与Snowflake等更侧重于离线分析的系统有根本差异 [50][51] - 演进历程与用例:从互联网用户行为分析起家,现已扩展至可观测性、金融时序、IoT传感器数据及AI推理日志等多个领域,AI时代新增的大量结构化日志是其增长的新动力 [55][56]

AI Labs 都在用,ClickHouse 能成为 AI 日志的实时分析引擎吗? - Reportify