Workflow
Bits AI SRE
icon
搜索文档
Datadog Unveils Latest AI Agents to Rapidly Resolve Application Issues
Newsfile· 2025-06-11 04:05
Datadog最新AI代理发布 - 公司推出三款新型AI代理:Bits AI SRE、Bits AI Dev Agent和Bits AI Security Analyst,专注于开发、安全和运维团队的实时应用问题解决 [1] - 新产品结合Proactive App Recommendations和APM Investigator功能,标志着Bits AI生成式助手的持续进化 [1] - 这些AI代理在DASH大会上发布,目前处于有限可用或预览阶段 [3][5] AI代理技术架构 - 新型AI代理基于共享任务核心能力的灵活系统构建,包括数据查询、异常分析和基础设施扩展等可复用功能 [2] - 架构设计使公司能够快速构建和部署新代理,同时保持一致的强大用户体验 [2] - 系统结合高质量的可观测性数据,使AI能力能够基于上下文精准运作,提供消除风险的洞察和行动建议 [2] 各AI代理功能细节 - Bits AI SRE:24x7待命响应,执行早期分类,提供初步调查结果,分配责任人,生成事件事后分析初稿 [3] - Bits AI Dev Agent:检测问题,生成代码修复,并针对组织技术栈开启拉取请求,工程师可直接在SCM中审查和合并变更 [3] - Bits AI Security Analyst:自主分类云SIEM信号,深入调查潜在威胁,无需人工提示即可提供解决方案建议 [3] 客户案例与行业应用 - Thomson Reuters通过Bits AI显著缩短问题解决时间,使运营和平台团队能够专注于更多创新工作 [4] - 公司平台每天处理数万亿数据点,深度嵌入客户的工程、开发和安全工作流程 [3] - 解决方案帮助组织理解可用性、安全性、性能和可靠性,并指导客户采取行动 [3] 附加AI功能 - Proactive App Recommendations:持续分析遥测数据,建议高影响力修复措施和最佳后续行动 [8] - APM Investigator:帮助工程师更快解决延迟峰值问题,自动化识别瓶颈、确定影响范围、突出慢速跟踪模式等流程 [8] 公司背景 - 公司是云应用可观测性和安全平台提供商,SaaS平台整合基础设施监控、应用性能监控、日志管理等多项能力 [6] - 解决方案被各种规模和行业的组织采用,用于数字化转型、云迁移、加速应用上市时间等场景 [6] - 平台促进开发、运营、安全和业务团队之间的协作,同时保护应用和基础设施安全 [6]
Datadog (DDOG) 2025 Conference Transcript
2025-06-10 23:02
纪要涉及的公司 - Datadog:一家提供软件服务的上市公司,专注于帮助用户应对技术复杂性和风险,提供多种产品和服务,包括AI代理、日志管理、安全防护、可观测性工具等 [1][3] - Thomson Reuters:使用Datadog的Bits来加速全球运营团队的问题分类 [20] - Fanatics:使用Datadog的Bits在重要赛事期间及时处理警报 [20] - Toyota Connected:与Datadog合作,借助其可观测性工具实现车辆系统的高可用性,核心产品包括DriveLink、mobility、Hey Toyota、multimedia等,目前有超1250万辆车通过这些系统连接 [110][112][113] - Okta:领先的独立中立身份公司,Auth0是其开发者友好的客户身份平台,使用Datadog的FlexLogs实现更快的根本原因分析和事件解决,节省成本并降低缓解时间 [133][134] - Cursor:一款受用户喜爱的AI编码工具,与Datadog合作,借助其数据和工具提升开发效率 [87] - Ramp:帮助超35000家公司控制支出、自动化会计和管理供应商,通过数据可观测性解决资本运营和产品方面的数据问题,如价格情报产品 [198][200][202] 纪要提到的核心观点和论据 产品创新与升级 - **Bits AI系列代理** - **Bits AI SRE**:能像SRE一样主动调查生产问题,通过分析更多数据、进行更深入的根本原因分析和拥有记忆功能,处理复杂任务,如解决Flight Query API端点的高延迟问题,已被Thomson Reuters和Fanatics等公司使用 [10][11][20] - **Bits AI Security Analyst**:可自动调查SIM信号,推荐分类解决方案并展示调查步骤,减少SOC团队的分类时间,如将调查时间从30分钟缩短到30秒,还能进行安全行动建议和自动创建案例 [40][43][48] - **Bits AI Dev Agent**:深度集成在Datadog平台,利用可观测性数据自主检测高影响问题、诊断根本原因并创建上下文感知的拉取请求,每月自动发送超1000个PR,为团队节省大量工程时间 [50][58] - **OnCall和事件响应** - **OnCall**:已推向一般可用性,超千家公司使用其改进值班流程,新的语音界面可实时获取监控细节、下一步操作并采取行动,如处理结账关键延迟警报 [22][30] - **状态页面**:新推出的Datadog状态页面可帮助用户轻松更新公司状态页面,支持模板、自定义域名等,实现端到端的事件处理流程 [35][36] - **APM相关功能** - **APM investigator**:处于预览阶段,可帮助用户快速解决延迟问题,如在几分钟内解决结账端点的延迟问题,还能解决应用效率低下、部署故障等问题 [60][61][71] - **主动应用建议**:处于预览阶段,通过分析APM、DBM、RUM和分析数据,提供性能和可靠性改进建议,如减少服务延迟、解决页面问题等,可在问题影响业务前进行处理 [65][70][71] - **IDP(内部开发者门户)**:是唯一能自动了解系统并保持最新状态的开发者门户,可帮助工程师轻松理解服务、跟踪最佳实践并使用AI管理基础设施,如通过软件目录、记分卡和自助服务操作等功能提高开发效率 [75][84][85] - **MCP Server**:允许代理访问Datadog数据和功能,帮助调试问题,如通过与Cursor集成,利用Datadog的实时锁点解决结账按钮无响应问题,并生成更准确的单元测试和修复方案 [93][95][99] - **日志管理** - **Flex Frozen**:新的长期存储层,可将日志在Datadog中完全管理长达7年,满足审计、安全漏洞调查和合规审查等需求 [121] - **Archive Search**:强大的日志搜索功能,可在不同存储位置查找日志洞察,快速生成合规报告,无需编写复杂查询或等待长时间的恢复作业 [122][123] - **Sheets**:原生电子表格解决方案,用于切片和切块日志数据或构建实时报告,方便分析师和审计人员进行数据分析 [124] - **Notebooks**:用于交互式绘图和协作分析,可将不同的遥测和上下文数据整合到一个统一的画布中,支持多步骤分析和团队协作,还集成了Bits AI进行数据分析 [125][126][127] - **安全防护** - **Datadog Security**:为AI应用的每个层提供安全保护,包括数据层防止敏感数据泄漏、模型层防止模型被操纵和应用层防止代码和云环境受到攻击,已推出超400个新功能和检测,7500家客户使用 [148][149][159] - **AI Agent Monitoring**:帮助用户构建更好的自定义代理并观察其性能,通过代理执行流程图、代理清单、实验等功能解决代理决策和工具选择不可靠的问题 [172][174][182] - **AI Agents Console**:可监控企业堆栈中所有AI代理的行为和交互,提供关键见解,如每月成本、错误率等,帮助用户检测低效代理并进行深入调查,确保代理安全、有效运行并提供可衡量的业务价值 [187][188][192] - **可观测性** - **GPU Monitoring**:提供对GPU舰队的全面可见性,解决资源争用、数据传输拥塞和成本浪费问题,如通过监控发现集群中的低效工作负载并进行优化 [161][162][168] - **LLM Observability**:从简单监控到支持自定义AI代理的观测,新增AI Agent Monitoring功能,帮助用户构建和操作LLM应用,确保输出可靠 [170][171][172] - **Data Observability**:处于预览阶段,通过结合深度数据质量检查和机器学习模型,覆盖整个数据生命周期,帮助用户检测问题、解决问题并防止问题发生,如解决金融运营公司的报价价格问题 [207][208][215] 客户案例与合作 - **Cursor**:在过去6个月基础设施规模扩大超100倍,Datadog帮助其实现可观测性扩展,避免崩溃,未来希望结合Datadog数据和Cursor能力提高生产力 [88] - **Toyota Connected**:通过Datadog的可观测性工具实现车辆系统的四个九的正常运行时间,将问题识别时间从分钟缩短到秒,DriveLink等核心产品已连接超1250万辆车 [113][115][118] - **Okta**:使用FlexLogs实现日志的单一视图,加快根本原因分析和事件解决,节省成本并降低缓解时间,同时与Datadog合作应对AI时代的安全挑战 [134][135] - **Ramp**:通过数据可观测性解决资本运营和产品方面的数据问题,如帮助资本市场团队信任数据、让客户信任价格情报产品 [200][202][204] 其他重要但是可能被忽略的内容 - **开源贡献**:Datadog的AI实验室发布了最先进的时间序列基础模型TOTO和相关基准BOOM,并以开放权重的方式在hugging face上免费提供,促进开放科学发展 [7][8] - **与OpenAI合作**:Datadog与OpenAI合作,将可操作上下文引入其新的Codec CLI,使SRE能够在终端中与AI代理协作,通过自然语言解决问题,无需在应用之间切换 [103][104][106] - **日志存储增长**:FlexLogs推出不到一年,团队每月存储的数据超过100PB,成为Datadog历史上增长最快的产品 [121] - **模型训练失败原因**:30%的模型训练失败是由于GPU问题,且GPU集群经常闲置,而SRE和ML工程师缺乏对GPU如何影响AI工作负载的端到端可见性 [161] - **AI代理部署趋势**:82%的组织计划在未来1 - 3年内在生产环境中部署AI代理,超60%的客户强调对AI代理信任的重要性 [138]