Workflow
Notion、Stripe 都在用的 Agent 监控,Braintrust 会是 AI-native 的 Datadog 吗?
海外独角兽·2025-09-25 18:33

文章核心观点 - AI Agent从演示走向产品化,开发者面临的核心挑战从模型本身转向如何观测、评估和优化这些黑箱系统[2] - Braintrust公司正将可观测性从传统的"监控指标与日志"重塑为"模型评估与行为追踪",以满足AI时代的新需求[2] - 系统性评估和可观测性将重新定义AI开发领域,并成为AI开发的默认配置,正如CI/CD成为软件开发的默认配置一样[4] - Braintrust凭借其产品力与高执行力,有望成为Agent时代的"新Datadog"[3][4] 产品功能 - Braintrust提供Eval(实验评估)和Ship(线上监控)两大核心模块,让团队能在实验阶段大规模测试不同模型与提示词的组合,并在生产环境持续跟踪模型表现[2][8] - Eval功能聚焦LLM的详细评估,通过多样化的Score方式(包括内置评测规则和自定义规则)帮助开发者衡量AI应用的准确性、一致性和安全性[9][10] - Ship功能实现LLM规模化部署监控,通过抽样实时生产环境中的数据流,跟踪成本、延迟和输出性能表现,并支持安全告警[13] - 2025年下半年推出的Loop AI Workflow是新功能,可将Eval和Ship自动化,帮助生成评估标准、测试数据集和prompt[24][25] - 产品采用Log-Trace-Span层级结构记录AI行为,Trace记录单个请求或交互,Span对应LLM执行中的工作单元[14][19] 市场背景与需求 - LLM市场预计到2030年达到361亿美元,AI平台市场到2030年达到943亿美元,将带动配套评估/观测工具渗透[5] - RAG、Agent、Copilot等技术带来的链路复杂度暴涨,以及合规/风险要求倒逼可追溯性需求[5] - 公司对大模型成本敏感,需要Trace功能来了解大模型的成本使用情况[5] - 传统Observability市场的四大支柱(指标、日志、追踪、性能分析)在AI时代需要扩展以适应LLM的不确定行为方式[4][5] 客群及商业化 - Braintrust拥有约3000家客户,每日进行超过3000次AI Eval评估,顶尖AI团队使用时间达到每天两小时以上[8][33] - 客户主要是将AI深度嵌入核心产品流程的科技公司,如Notion、Zapier、Stripe等头部公司[2][31] - 商业化采用Product-led Growth模式,通过self-service product吸引用户体验后获得自然流量[35] - 付费模式分为免费和PRO(249美元每月)两档,定价核心是以结果评估Score为中心进行阶梯式收费[36] - 估算显示中型用户每年可带来约456万美元收入,而类似GPT的大型用户可带来约5400万美元年收入[38] 团队及融资 - 创始人Ankur Goyal于2023年创立Braintrust,具有连续创业背景(曾创立Impira并被Figma收购)[42][44] - 公司先后完成两轮融资:2023年12月完成510万美元种子轮,2024年10月完成3600万美元A轮融资,投资方包括a16z、Greylock等[45] - 团队规模约11-50人,估值约1.5亿美元,保持每周2-6个更新的产品迭代节奏[42][50] - 团队以高执行力和快速响应客户需求著称,如在一天内完成Gemini AI接入的产品上线[46] 市场竞争 - AI Observability赛道在2024-2025年有多家公司获得融资,典型客户集中在AI Native或AI加速的SaaS公司[53] - 主要竞争对手包括LangSmith(每月3万注册量级)、Datadog、Arize AI、Patronus等[8][54] - Braintrust在LLM eval上具有明显功能优势,评估体系Scorer极其丰富且更精细化,而Datadog更偏向告警和运维管理[59][60] - Braintrust采用request-level tracing架构,一级对象包括evaluation run、prompt-response pair等,更贴近模型能力观测[77] - 产品UX交互体验优秀,SDK设计良好,数据流统一,是胜过其他竞品的重要原因[67][68]