Observability

搜索文档
喝点VC|红杉对话Traversal创始人:所有最有趣的创新,都是在像我们这样的、专注于研究的小型初创公司中发生的
Z Potentials· 2025-07-13 11:31
AI在DevOps与SRE中的革命性应用 - AI Agent正在改变DevOps和站点可靠性工程(SRE)的世界,通过自动化故障排查和修复代码库问题,显著减少生产停机时间[3] - 当前DevOps工程师面临每周多次"心脏病发作"式的高严重性事故和持续慢性问题,AI有望将人类从这些重复性工作中解放出来,转向更具创意的规划工作[4][5][6] - AI驱动的软件工程工具(vibe coding)导致代码调试难度增加,因为开发者失去了对AI生成代码的上下文理解,这为Traversal等公司创造了解决此类问题的机会[9] RCA(根本原因分析)现状与挑战 - 当前RCA流程高度依赖人工,通常需要30-50人在Slack频道中协作,最终由经验丰富的"10倍工程师"解决问题[12] - Observability工具是企业第二大技术开支(仅次于云支出),但仍停留在数据存储和可视化层面,未能自动化复杂的故障排查工作流[13][14] - 传统Observability系统生成MELT数据(指标、事件、日志和追踪),但缺乏自动化分析能力,导致企业每年在故障排查上浪费大量时间[14][15] Traversal的技术方案 - 解决方案基于LLM对工具的编排,通过定义丰富的工具集将RCA表达为工具调用的组合或序列[16] - 系统分为离线阶段(构建依赖关系图)和在线阶段(实时事件处理),离线阶段需要5-10小时学习客户系统[25][26] - 采用只读数据访问模式,避免增加企业数据负担,同时利用统计学方法和LLM理解日志间的语义关联[24][25] - 在数据完备的情况下,系统能在2-4分钟内找到90%以上事件的根因,大幅缩短月度解决时间和减少参与排查人数[23] 行业影响与未来展望 - 大型企业比初创公司更能从该方案获益,因其Observability系统成熟但团队分散,导致故障排查效率低下[19] - 未来SRE团队需要同时精通传统系统故障模式和AI系统失效特点,成为"AI素养"与工程能力兼备的复合型人才[33] - 日志设计将发生根本变化,从面向人类阅读转为面向AI系统理解,需要记录更多语义信息而非传统格式化内容[34][35] - 软件工程将更关注功能实现而非代码编写方式,但这也导致系统交互问题更难调试,凸显自动化故障排查工具的重要性[36] 团队与技术架构 - 团队90%为工程师,多数具有机器学习背景,强调快速迭代和实验性思维而非传统证书[30][32] - 采用客户已有的LLM服务(如OpenAI/Anthropic)而非自建模型,避免企业安全审查问题[27] - 系统设计强调未来适应性,通过持续预测AI技术发展(如推理模型能力提升)来保持架构优势[29] - 核心技术源自基因调控网络研究,将微服务类比基因节点,应用因果建模方法分析系统故障传播路径[28]
2 Glorious Growth Stocks Down 36% and 57% You'll Wish You'd Bought on the Dip, According to Wall Street
The Motley Fool· 2025-06-19 16:49
市场概况 - 标普500指数已从近期19%的跌幅中几乎完全恢复 但部分企业软件股仍未收复2021年高点 [1] - Datadog和Workiva股价较峰值分别下跌36%和57% 但分析师认为当前估值已具吸引力 [2] Datadog投资亮点 - 公司开发的全天候云基础设施监控平台覆盖30,500家跨行业客户 包括游戏、制造、金融和零售等领域 [4] - 2025年Q1新增AI可观测性工具客户数量较半年前翻倍 整体AI产品用户达4,000家(同比翻倍) [5][6] - 上调2025年收入指引至32.35亿美元(较原预期增加4,000万美元) 对应21%同比增长 可观测性市场总规模达530亿美元 [7] - 市销率从2021年峰值70倍降至15.5倍 46位分析师中31位给予"买入"评级 平均目标价隐含15%上涨空间 [8][10] Workiva投资亮点 - 平台整合数百种数字应用数据 通过统一仪表板降低人工错误 并支持快速生成监管文件和高管报告 [11][12] - ESG报告产品帮助企业追踪对利益相关方的影响 涵盖碳排放到职场多样性等维度 [13] - 2025年Q1客户总数6,385家(同比+5%) 其中10万美元/年以上合同客户增长23% 50万美元/年以上客户激增32% [14] - 2025年收入预期8.68亿美元(同比+17.5%) 市销率4.8倍接近上市后最低水平 13位分析师中11位建议"买入" 目标价隐含44%上涨空间 [15][17][18] 行业机会 - Datadog所在的可观测性市场规模达530亿美元 [7] - Workiva可触达市场空间为350亿美元 [18]
Datadog (DDOG) 2025 Conference Transcript
2025-06-10 23:02
纪要涉及的公司 - Datadog:一家提供软件服务的上市公司,专注于帮助用户应对技术复杂性和风险,提供多种产品和服务,包括AI代理、日志管理、安全防护、可观测性工具等 [1][3] - Thomson Reuters:使用Datadog的Bits来加速全球运营团队的问题分类 [20] - Fanatics:使用Datadog的Bits在重要赛事期间及时处理警报 [20] - Toyota Connected:与Datadog合作,借助其可观测性工具实现车辆系统的高可用性,核心产品包括DriveLink、mobility、Hey Toyota、multimedia等,目前有超1250万辆车通过这些系统连接 [110][112][113] - Okta:领先的独立中立身份公司,Auth0是其开发者友好的客户身份平台,使用Datadog的FlexLogs实现更快的根本原因分析和事件解决,节省成本并降低缓解时间 [133][134] - Cursor:一款受用户喜爱的AI编码工具,与Datadog合作,借助其数据和工具提升开发效率 [87] - Ramp:帮助超35000家公司控制支出、自动化会计和管理供应商,通过数据可观测性解决资本运营和产品方面的数据问题,如价格情报产品 [198][200][202] 纪要提到的核心观点和论据 产品创新与升级 - **Bits AI系列代理** - **Bits AI SRE**:能像SRE一样主动调查生产问题,通过分析更多数据、进行更深入的根本原因分析和拥有记忆功能,处理复杂任务,如解决Flight Query API端点的高延迟问题,已被Thomson Reuters和Fanatics等公司使用 [10][11][20] - **Bits AI Security Analyst**:可自动调查SIM信号,推荐分类解决方案并展示调查步骤,减少SOC团队的分类时间,如将调查时间从30分钟缩短到30秒,还能进行安全行动建议和自动创建案例 [40][43][48] - **Bits AI Dev Agent**:深度集成在Datadog平台,利用可观测性数据自主检测高影响问题、诊断根本原因并创建上下文感知的拉取请求,每月自动发送超1000个PR,为团队节省大量工程时间 [50][58] - **OnCall和事件响应** - **OnCall**:已推向一般可用性,超千家公司使用其改进值班流程,新的语音界面可实时获取监控细节、下一步操作并采取行动,如处理结账关键延迟警报 [22][30] - **状态页面**:新推出的Datadog状态页面可帮助用户轻松更新公司状态页面,支持模板、自定义域名等,实现端到端的事件处理流程 [35][36] - **APM相关功能** - **APM investigator**:处于预览阶段,可帮助用户快速解决延迟问题,如在几分钟内解决结账端点的延迟问题,还能解决应用效率低下、部署故障等问题 [60][61][71] - **主动应用建议**:处于预览阶段,通过分析APM、DBM、RUM和分析数据,提供性能和可靠性改进建议,如减少服务延迟、解决页面问题等,可在问题影响业务前进行处理 [65][70][71] - **IDP(内部开发者门户)**:是唯一能自动了解系统并保持最新状态的开发者门户,可帮助工程师轻松理解服务、跟踪最佳实践并使用AI管理基础设施,如通过软件目录、记分卡和自助服务操作等功能提高开发效率 [75][84][85] - **MCP Server**:允许代理访问Datadog数据和功能,帮助调试问题,如通过与Cursor集成,利用Datadog的实时锁点解决结账按钮无响应问题,并生成更准确的单元测试和修复方案 [93][95][99] - **日志管理** - **Flex Frozen**:新的长期存储层,可将日志在Datadog中完全管理长达7年,满足审计、安全漏洞调查和合规审查等需求 [121] - **Archive Search**:强大的日志搜索功能,可在不同存储位置查找日志洞察,快速生成合规报告,无需编写复杂查询或等待长时间的恢复作业 [122][123] - **Sheets**:原生电子表格解决方案,用于切片和切块日志数据或构建实时报告,方便分析师和审计人员进行数据分析 [124] - **Notebooks**:用于交互式绘图和协作分析,可将不同的遥测和上下文数据整合到一个统一的画布中,支持多步骤分析和团队协作,还集成了Bits AI进行数据分析 [125][126][127] - **安全防护** - **Datadog Security**:为AI应用的每个层提供安全保护,包括数据层防止敏感数据泄漏、模型层防止模型被操纵和应用层防止代码和云环境受到攻击,已推出超400个新功能和检测,7500家客户使用 [148][149][159] - **AI Agent Monitoring**:帮助用户构建更好的自定义代理并观察其性能,通过代理执行流程图、代理清单、实验等功能解决代理决策和工具选择不可靠的问题 [172][174][182] - **AI Agents Console**:可监控企业堆栈中所有AI代理的行为和交互,提供关键见解,如每月成本、错误率等,帮助用户检测低效代理并进行深入调查,确保代理安全、有效运行并提供可衡量的业务价值 [187][188][192] - **可观测性** - **GPU Monitoring**:提供对GPU舰队的全面可见性,解决资源争用、数据传输拥塞和成本浪费问题,如通过监控发现集群中的低效工作负载并进行优化 [161][162][168] - **LLM Observability**:从简单监控到支持自定义AI代理的观测,新增AI Agent Monitoring功能,帮助用户构建和操作LLM应用,确保输出可靠 [170][171][172] - **Data Observability**:处于预览阶段,通过结合深度数据质量检查和机器学习模型,覆盖整个数据生命周期,帮助用户检测问题、解决问题并防止问题发生,如解决金融运营公司的报价价格问题 [207][208][215] 客户案例与合作 - **Cursor**:在过去6个月基础设施规模扩大超100倍,Datadog帮助其实现可观测性扩展,避免崩溃,未来希望结合Datadog数据和Cursor能力提高生产力 [88] - **Toyota Connected**:通过Datadog的可观测性工具实现车辆系统的四个九的正常运行时间,将问题识别时间从分钟缩短到秒,DriveLink等核心产品已连接超1250万辆车 [113][115][118] - **Okta**:使用FlexLogs实现日志的单一视图,加快根本原因分析和事件解决,节省成本并降低缓解时间,同时与Datadog合作应对AI时代的安全挑战 [134][135] - **Ramp**:通过数据可观测性解决资本运营和产品方面的数据问题,如帮助资本市场团队信任数据、让客户信任价格情报产品 [200][202][204] 其他重要但是可能被忽略的内容 - **开源贡献**:Datadog的AI实验室发布了最先进的时间序列基础模型TOTO和相关基准BOOM,并以开放权重的方式在hugging face上免费提供,促进开放科学发展 [7][8] - **与OpenAI合作**:Datadog与OpenAI合作,将可操作上下文引入其新的Codec CLI,使SRE能够在终端中与AI代理协作,通过自然语言解决问题,无需在应用之间切换 [103][104][106] - **日志存储增长**:FlexLogs推出不到一年,团队每月存储的数据超过100PB,成为Datadog历史上增长最快的产品 [121] - **模型训练失败原因**:30%的模型训练失败是由于GPU问题,且GPU集群经常闲置,而SRE和ML工程师缺乏对GPU如何影响AI工作负载的端到端可见性 [161] - **AI代理部署趋势**:82%的组织计划在未来1 - 3年内在生产环境中部署AI代理,超60%的客户强调对AI代理信任的重要性 [138]
Dynatrace (DT) FY Conference Transcript
2025-06-04 22:00
纪要涉及的行业和公司 - 行业:可观测性软件行业 - 公司:Dynatrace 纪要提到的核心观点和论据 可观测性软件行业 - **市场规模与增长**:可观测性软件市场规模超500亿美元,应用安全部分约140亿美元,总计约650亿美元,且市场快速增长,因世界依赖软件运行,软件需保持可用、可靠、安全并提供出色用户体验 [9]。 - **发展阶段**:从监控阶段(主要基于仪表盘显示软件状态,但无法指出问题根源)发展到可观测性阶段(利用AI分析数十亿互联数据点,精准指出问题所在、原因及解决方法),未来将迈向自主系统阶段,利用智能AI自动修复问题 [6][8][9]。 - **面临挑战**:软件管理难度增加,如大型石油和天然气公司需数百人盯着数百个屏幕监控数千个应用程序,效率低且不可持续;云服务加速软件交付,但产生大量碎片化数据,增加软件复杂性,需要复杂的可观测性系统处理 [10][11][14]。 - **发展趋势**:一是向业务可观测性发展,企业不仅关注软件运行情况,还希望了解业务整体运行状况;二是向完全集成的平台和系统发展,将应用监控、应用基础设施、真实用户监控、日志管理和监控等多个不同部分整合,提供全面的监控视角 [16][17][18]。 Dynatrace公司 - **公司定位**:领先的AI驱动可观测性平台,拥有完全集成的数据存储(Grail),能存储所有可观测性数据类型,提供全面的监控视角;具备复杂的AI系统,包括因果AI、预测AI和生成式AI,可精准分析问题、预测问题并提供自然语言接口;还注重自动化,能帮助客户减少事件数量、缩短响应时间并节省成本 [14][20][21]。 - **竞争优势**:在各类报告中,Dynatrace几乎总是处于领导者象限,因其能提供使软件更好运行的解决方案,而非仅仅提供数据;公司专注于全球15000强企业,能获取大量数据并进行最佳分析,但也向广泛的客户群体销售产品,包括高管、平台工程团队、SRE团队和开发人员等 [26]。 - **客户案例**:以英国电信为例,使用Dynatrace平台后,事件数量减少50%,平均响应或恢复时间减少90%,估计三年节省成本2800万英镑,证明公司产品能为客户带来显著效益 [24][25]。 - **财务状况**:总体ARR约17亿美元,客户流失率低,毛利率保持在90%以上 [27]。 - **市场竞争策略**:市场上虽有众多参与者,但行业趋势是整合、简化和供应商集成,Dynatrace凭借统一的平台架构、AI驱动和启用等优势,能帮助客户整合工具、节省软件成本和IT运营成本,处于有利地位;公司在市场推广和产品包装方面采取措施,以更好地利用市场趋势 [31][32][33]。 - **GenAI影响**:从工作负载角度看,AI的使用加速了软件的开发,增加了对可观测性的需求,Dynatrace的解决方案可管理AI可观测性工作负载;从平台角度看,公司不仅使用因果、预测和生成式AI,还将向智能AI发展,利用Grail数据存储提供确定性的见解,使客户能够基于这些见解采取行动 [35][37][38]。 - **宏观环境影响**:可观测性市场具有较强的韧性,因为软件是各行业运营的核心,需要可观测性工具来管理环境;在动态环境中,能帮助客户节省成本的公司具有优势,Dynatrace的产品能满足这一需求 [41][42][43]。 - **指导方针哲学**:公司以审慎的方式管理业务,在制定指导方针时考虑已知因素和执行能力;当前业务有诸多顺风因素,如成熟的销售模式、新的产品领域和合作伙伴社区的牵引,但也面临客户谨慎、交易周期可能延长的逆风因素;公司预计交易仍会完成,但可能需要更长时间,因此在指导方针中考虑了交易周期延长的预期;管道趋势非常强劲,预计在第一季度后进行评估,更全面的更新可能在上半年后提供 [46][47][48]。 - **DPS定价模式**:DPS定价模式推出两年,目前60%的ARR采用该模式;该模式解决了基于SKU的销售模式给客户带来的购买体验痛点,客户可通过承诺一定期限和金额获得平台的全面访问权和更好的单价;采用DPS模式的客户平均使用平台12种功能,是基于SKU客户的两倍,消费率是后者的两倍,净留存率更高,公司预计该模式将继续推动客户对平台的采用和渗透 [51][52][53]。 其他重要但是可能被忽略的内容 - 公司销售对象除了传统的AI ops、IT和开发人员外,还包括高管、平台工程团队、SRE团队等,反映了业务可观测性需求的增长 [17][27]。 - 公司将在会议结束后约十分钟开始在Mayher举行30分钟的分组讨论会议,供有兴趣深入了解的人参加 [55]。
Dynatrace(DT) - 2025 Q4 - Earnings Call Presentation
2025-05-14 19:08
业绩总结 - Dynatrace在2025财年第四季度的订阅年经常性收入(ARR)为17.3亿美元,同比增长32%[37] - 2025财年第四季度的非GAAP收入保留率为95%[37] - 2025财年第四季度的非GAAP运营利润率为29%[37] - FY24第一季度的年化经常性收入(ARR)为12.94亿美元,同比增长25%[63] - FY24第四季度的ARR为15.04亿美元,同比增长21%[63] - FY25第一季度的ARR预计为15.41亿美元,同比增长19%[63] - FY24的订阅毛利为11.75亿美元,毛利率为86%[65] - FY25的订阅毛利预计为13.89亿美元,毛利率为86%[65] - FY24的自由现金流(FCF)为3.46亿美元,占收入的24%[70] - FY25的自由现金流预计为4.31亿美元,占收入的25%[70] - FY24的运营收入为1.28亿美元,运营利润率为9%[67] - FY25的运营收入预计为1.79亿美元,运营利润率为11%[67] - FY24的净现金提供来自经营活动为3.78亿美元[70] 未来展望 - 2026财年的ARR指导范围为19.75亿至19.90亿美元,按报告计算增长率为14%至15%[59] - 2026财年的总收入指导范围为19.50亿至19.65亿美元,按报告计算增长率为15%至16%[59] - 2026财年的非GAAP净收入指导范围为4.81亿至4.94亿美元[59] - 2026财年的自由现金流指导范围为5.05亿至5.15亿美元,自由现金流利润率为26%[59] 用户数据 - Dynatrace的客户基础已扩展至15,000个客户,覆盖30多个国家[29][30] - Dynatrace的总可寻址市场(TAM)为140亿美元,其中安全市场占85亿美元[27] 其他信息 - Dynatrace在2024年Gartner魔力象限中被评为观察平台的领导者,这是连续第14次获此荣誉[24]