纪要涉及的公司 - Datadog:一家提供软件服务的上市公司,专注于帮助用户应对技术复杂性和风险,提供多种产品和服务,包括AI代理、日志管理、安全防护、可观测性工具等 [1][3] - Thomson Reuters:使用Datadog的Bits来加速全球运营团队的问题分类 [20] - Fanatics:使用Datadog的Bits在重要赛事期间及时处理警报 [20] - Toyota Connected:与Datadog合作,借助其可观测性工具实现车辆系统的高可用性,核心产品包括DriveLink、mobility、Hey Toyota、multimedia等,目前有超1250万辆车通过这些系统连接 [110][112][113] - Okta:领先的独立中立身份公司,Auth0是其开发者友好的客户身份平台,使用Datadog的FlexLogs实现更快的根本原因分析和事件解决,节省成本并降低缓解时间 [133][134] - Cursor:一款受用户喜爱的AI编码工具,与Datadog合作,借助其数据和工具提升开发效率 [87] - Ramp:帮助超35000家公司控制支出、自动化会计和管理供应商,通过数据可观测性解决资本运营和产品方面的数据问题,如价格情报产品 [198][200][202] 纪要提到的核心观点和论据 产品创新与升级 - Bits AI系列代理 - Bits AI SRE:能像SRE一样主动调查生产问题,通过分析更多数据、进行更深入的根本原因分析和拥有记忆功能,处理复杂任务,如解决Flight Query API端点的高延迟问题,已被Thomson Reuters和Fanatics等公司使用 [10][11][20] - Bits AI Security Analyst:可自动调查SIM信号,推荐分类解决方案并展示调查步骤,减少SOC团队的分类时间,如将调查时间从30分钟缩短到30秒,还能进行安全行动建议和自动创建案例 [40][43][48] - Bits AI Dev Agent:深度集成在Datadog平台,利用可观测性数据自主检测高影响问题、诊断根本原因并创建上下文感知的拉取请求,每月自动发送超1000个PR,为团队节省大量工程时间 [50][58] - OnCall和事件响应 - OnCall:已推向一般可用性,超千家公司使用其改进值班流程,新的语音界面可实时获取监控细节、下一步操作并采取行动,如处理结账关键延迟警报 [22][30] - 状态页面:新推出的Datadog状态页面可帮助用户轻松更新公司状态页面,支持模板、自定义域名等,实现端到端的事件处理流程 [35][36] - APM相关功能 - APM investigator:处于预览阶段,可帮助用户快速解决延迟问题,如在几分钟内解决结账端点的延迟问题,还能解决应用效率低下、部署故障等问题 [60][61][71] - 主动应用建议:处于预览阶段,通过分析APM、DBM、RUM和分析数据,提供性能和可靠性改进建议,如减少服务延迟、解决页面问题等,可在问题影响业务前进行处理 [65][70][71] - IDP(内部开发者门户):是唯一能自动了解系统并保持最新状态的开发者门户,可帮助工程师轻松理解服务、跟踪最佳实践并使用AI管理基础设施,如通过软件目录、记分卡和自助服务操作等功能提高开发效率 [75][84][85] - MCP Server:允许代理访问Datadog数据和功能,帮助调试问题,如通过与Cursor集成,利用Datadog的实时锁点解决结账按钮无响应问题,并生成更准确的单元测试和修复方案 [93][95][99] - 日志管理 - Flex Frozen:新的长期存储层,可将日志在Datadog中完全管理长达7年,满足审计、安全漏洞调查和合规审查等需求 [121] - Archive Search:强大的日志搜索功能,可在不同存储位置查找日志洞察,快速生成合规报告,无需编写复杂查询或等待长时间的恢复作业 [122][123] - Sheets:原生电子表格解决方案,用于切片和切块日志数据或构建实时报告,方便分析师和审计人员进行数据分析 [124] - Notebooks:用于交互式绘图和协作分析,可将不同的遥测和上下文数据整合到一个统一的画布中,支持多步骤分析和团队协作,还集成了Bits AI进行数据分析 [125][126][127] - 安全防护 - Datadog Security:为AI应用的每个层提供安全保护,包括数据层防止敏感数据泄漏、模型层防止模型被操纵和应用层防止代码和云环境受到攻击,已推出超400个新功能和检测,7500家客户使用 [148][149][159] - AI Agent Monitoring:帮助用户构建更好的自定义代理并观察其性能,通过代理执行流程图、代理清单、实验等功能解决代理决策和工具选择不可靠的问题 [172][174][182] - AI Agents Console:可监控企业堆栈中所有AI代理的行为和交互,提供关键见解,如每月成本、错误率等,帮助用户检测低效代理并进行深入调查,确保代理安全、有效运行并提供可衡量的业务价值 [187][188][192] - 可观测性 - GPU Monitoring:提供对GPU舰队的全面可见性,解决资源争用、数据传输拥塞和成本浪费问题,如通过监控发现集群中的低效工作负载并进行优化 [161][162][168] - LLM Observability:从简单监控到支持自定义AI代理的观测,新增AI Agent Monitoring功能,帮助用户构建和操作LLM应用,确保输出可靠 [170][171][172] - Data Observability:处于预览阶段,通过结合深度数据质量检查和机器学习模型,覆盖整个数据生命周期,帮助用户检测问题、解决问题并防止问题发生,如解决金融运营公司的报价价格问题 [207][208][215] 客户案例与合作 - Cursor:在过去6个月基础设施规模扩大超100倍,Datadog帮助其实现可观测性扩展,避免崩溃,未来希望结合Datadog数据和Cursor能力提高生产力 [88] - Toyota Connected:通过Datadog的可观测性工具实现车辆系统的四个九的正常运行时间,将问题识别时间从分钟缩短到秒,DriveLink等核心产品已连接超1250万辆车 [113][115][118] - Okta:使用FlexLogs实现日志的单一视图,加快根本原因分析和事件解决,节省成本并降低缓解时间,同时与Datadog合作应对AI时代的安全挑战 [134][135] - Ramp:通过数据可观测性解决资本运营和产品方面的数据问题,如帮助资本市场团队信任数据、让客户信任价格情报产品 [200][202][204] 其他重要但是可能被忽略的内容 - 开源贡献:Datadog的AI实验室发布了最先进的时间序列基础模型TOTO和相关基准BOOM,并以开放权重的方式在hugging face上免费提供,促进开放科学发展 [7][8] - 与OpenAI合作:Datadog与OpenAI合作,将可操作上下文引入其新的Codec CLI,使SRE能够在终端中与AI代理协作,通过自然语言解决问题,无需在应用之间切换 [103][104][106] - 日志存储增长:FlexLogs推出不到一年,团队每月存储的数据超过100PB,成为Datadog历史上增长最快的产品 [121] - 模型训练失败原因:30%的模型训练失败是由于GPU问题,且GPU集群经常闲置,而SRE和ML工程师缺乏对GPU如何影响AI工作负载的端到端可见性 [161] - AI代理部署趋势:82%的组织计划在未来1 - 3年内在生产环境中部署AI代理,超60%的客户强调对AI代理信任的重要性 [138]
Datadog (DDOG) 2025 Conference Transcript