可观测性
搜索文档
对话一线架构大佬 Christian Ciceri:颠覆传统认知,顶尖架构师眼中,决定职业生涯上限的不是技术能力
36氪· 2025-11-12 15:48
近日,InfoQ 独家采访了 Apiumhub 联合创始人、知名软件架构专家 Christian Ciceri,带领读者从一线 架构师的实战经验出发,深度探讨"可度量、可演化的架构"理念,以及 AI 与现代软件工程工具对架构 实践的影响。此次访谈不仅回顾了 Ciceri 本人的成长历程,也提供了丰富的架构实践智慧,让读者在快 速变化的技术环境中,理解如何保持架构质量与团队适应性。 Ciceri 的职业路径颇具代表性:他从一线软件开发与架构设计实践中积累经验,目睹了大型企业中灵活 性不足、交付周期漫长、流程效率低下的常见挑战。2014 年,他与叶夫根尼·普雷丁(Evgeny Predein) 在巴塞罗那共同创立了 Apiumhub,立志将敏捷方法论与软件架构紧密结合到业务运营的核心。正是在 长期实践中,Ciceri 逐渐形成了"可度量、可演化架构"的理念,并将这一理念凝练在其著作《软件架构 指标》中。他强调,构建稳固且具适应性的系统,不仅能提升软件交付质量,还能保证系统随业务需求 同步成长。 在采访中,Ciceri 对"可观测性"(Observability)和"架构治理"进行了深入阐述。他指出,系统运行时的 ...
多维无界,观测有道|Bonree ONE 2025秋季版全球发布!
经济观察报· 2025-10-29 18:07
产品发布核心事件 - 博睿数据于2025年10月24日成功举办「多维无界 观测有道」Bonree ONE 2025秋季版全球发布会 [1] - 公司正式发布一体化智能可观测平台Bonree ONE 2025秋季版,旨在以更全面、更智能、更稳定的能力帮助企业驾驭复杂数字系统 [1] - 公司强调可观测性是企业掌控复杂系统的战略基石,并致力于在全球可观测性领域建立源自中国的世界级品牌 [1] AI深度融合 - 通过AI构建多维度智能模块协同框架,实现观测数据向自主运维决策与精准根因定位的转化 [3] - 小睿助理作为统一交互入口,结合AIGC与RAG知识库,提供智能问答、导航引导、AI帮写等功能 [3] - 智能问答功能基于1,035篇公共文档和21,954篇私域文档,实现实时推理和故障排查 [3] - 具备智能环境感知、智能导航及AI帮写功能,AI帮写可快速生成PromQL并支持一键回填 [3] - 实现自主决策型根因分析,通过大模型理解可观测数据,结合Agent、LLM与知识库输出排查建议 [4] 全面多维观测 - 以业务形态为核心组织IT运维数据,实现分层分类呈现,支持从宏观健康状态到细节问题的逐层下钻 [5] - 链路编排功能支持用户围绕核心业务定制关键路径视图,摆脱孤立指标,页面布局与图表完全自定义 [5] - 宏观概览将复杂分布式系统映射为清晰可视的核心业务链路,掌控系统整体健康状态 [5] - 焦点详情支持每个节点逐层下钻,整合日志、调用链、告警等多维信息,显著缩短故障排查时间 [5] 架构突破升级 - 核心ETL引擎Ingester经过重构,资源消耗降低65%,实现毫秒级数据接入 [6] - QueryService对PromQL兼容度大幅提升,增强查询便捷性与能力 [6] - AIService全面融入大模型技术,驱动监控与分析系统智能化 [6] - 全链路架构升级覆盖ETL、存储与AI服务三大核心环节,形成从数据处理到智能分析的技术闭环 [6] ETL架构升级详情 - 新一代ETL引擎以流批一体为核心,在处理能力、资源调度、算法支持、性能与稳定性五个维度增强 [8] - 新增滚动、滑动、会话及全局窗口支持,并提供"精准一次"处理语义保障 [8] - 支持任务级与算子级并行度灵活配置,内置200+算子并支持UDF [8] - 资源利用率提升65%,实时流数据处理延迟降至毫秒级,计算资源需求降至原方案的⅓ [8] - 构建50+监控指标与智能预警体系,引入自适应流量控制与熔断保护机制 [8] 存储体系升级详情 - QueryService对PromQL兼容度提升至99.44%,增强多协议交互稳定性 [9] - 通过动态索引、并行副本加速及列存储压缩技术,查询性能提升3倍,存储占用降低50% [9] - 借助分级存储与无锁并发机制,数据延迟从分钟级优化至秒级,整体入库与查询效率提升30% [9] AIService智能能力重构 - 上层构建四大智能模块:智能问答、下一代根因分析引擎、智能检索及智能总结 [10] - 底层通过OneFlow可编排平台与MCP服务平台,实现能力灵活调度与闭环服务支撑 [10] 行业客户实践 - 平台已赢得金融、互联网、能源、制造业等关键领域超百家头部客户认可 [11] - 国投证券引入该平台推进证券交易系统全链路可观测平台建设,构建从APP客户端到核心交易系统的完整观测体系 [11] - 通过关键标识实现每笔委托交易端到端打通,提升多场景协同效率,未来将在AIOps、FinOps等领域深化应用 [11] 行业圆桌对话 - 大会设立圆桌对话环节,汇聚金融、制造等领域技术领袖,探讨"AI + 可观测"的探索、实践和展望 [13] - 对话聚焦应用场景与价值、行业突破点及未来演进方向,基于真实案例拆解一线实践经验 [13] 公司战略与展望 - 发布会彰显了公司在可观测领域的创新成果及对智能运维趋势的洞察与布局 [14] - 公司将持续加大海外投入,重点深耕东南亚市场并推进全球业务布局,目标成为企业级服务领域全球顶级高科技公司 [16]
AI 时代可观测性的“智”变与“智”控 | 直播预告
AI前线· 2025-10-12 13:32
直播活动概述 - 直播主题为AI时代可观测性的"智"变与"智"控之道 [2] - 直播时间为10月15日20:00-21:30 [2] - 参与嘉宾来自阿里云、字节跳动、小红书三家公司的技术专家 [2][3] 核心讨论议题 - 头部企业共话AI时代可观测性的新边界 [3] - 探讨大模型落地的路线之争:智能治理与算法优先的权衡 [3][6] - 关注SRE Agent在降噪提效方面的效率革命 [6] - 目标是构建"观测-分析-行动"的通用智能闭环 [6] 技术实践与案例 - 新型归因平台可实现分钟级定位80%的线上故障 [6] - 平台为移动端故障止损提供了基础支撑 [6] - 分享eBPF技术在大规模常态化运行中的实践经验 [6] - 探索可观测指标归因的底层原理 [6]
AI低质代码泛滥、API经济盛行,老牌科技厂商 F5 如何应对大模型应用“后遗症”?
AI前线· 2025-09-10 21:01
AI编程工具在企业应用中的效率与挑战 - AI编程工具显著提升开发效率但带来新型挑战 首要挑战是安全性问题 AI生成代码可能包含新安全漏洞 [2] - "Vibe Coding"导致大量低质代码涌现 API数量激增使企业运维负担加重 [2] - "黑盒子"问题凸显 人类开发者难以理解AI生成代码的内在逻辑 使调试和漏洞排查变得复杂耗时 [2] 企业应用安全现状与WAAP采用 - 应用交付与安全防护环节成为性能制约因素 身份验证的便捷性与安全性需要平衡 [4] - WAAP成为AI默认保护标准 超过91%用户已应用WAAP保护AI/机器学习模型安全 [5] - 基于AI的应用交付成为最大红利 2025年利用大模型分析应用和API性能的比例达54% [7] AI在运维流程中的应用 - 57%运维人员使用AI生成脚本用于配置部署与调整 56%用AI生成自定义策略 55%用AI执行脚本实现全流程智能化 [7] - 可观测性成为AI驱动自动化关键支撑 65%受访者利用可观测性驱动自动化 Open Telemetry成为主流选择 [7] - 现代应用占比从2020年29%提升至2025年53% 传统应用从71%降至47% [7] 企业落地AI应用的三大难题 - 复杂IT架构 特殊安全需求与成本控制目标构成企业落地AI必须攻克的三大难题 [9] - AI基础设施投入巨大 仅8卡服务器成本就达百万级 支撑海量算力业务需要巨大前期投资 [12] - 到2028年80%企业将嵌入AI能力 其中94%AI应用部署在混合多云复杂架构环境中 [12] F5的ADSP平台转型与能力 - 从传统ADC进化为应用交付与安全平台(ADSP) 功能从WAF升级至WAAP 核心目标转向API保护 [11] - ADSP平台可无缝运行于本地数据中心高性能硬件 虚拟化与混合环境及云原生SaaS环境 实现跨环境一体化运维 [14] - 平台提供融合能力 既保证应用安全又保证应用交付快速 特别适合边缘AI控制延时性需求 [15] AI网关产品的技术创新 - AI网关具备基于抽象化和上下文的大语言模型路由能力 可将提示词精准匹配至合适的大模型 [16] - TBLB AI推理网关通过实时判断后台算力 将GPU算力调用率提升30-60% 某芯片制造厂推理服务成功率提升至少8% [16] - AI网关集成多个安全小模型 做智能调度 不断扩充大模型安全防护能力 应对新型攻击 [16] F5平台的全方位服务能力 - 为所有应用提供全面整合交付服务 包括负载均衡 DNS CDN 多云网络及API网关 [17] - WAAP平台与零信任 AI安全 网络防火墙深度协同 实现代理式安全运营 [17] - 解决方案具备前所未有的部署灵活性 可部署于本地数据中心 公有云 主权云 SaaS平台 边缘网络及AI工厂等环境 [17] 跨职能运维支持与AI助手 - 平台覆盖NetOps SecOps DevOps和平台运维 提供统一策略管理 深度安全分析 自动化与编排工具 [17] - 发布AI助手具备"解释 生成 优化"三大核心能力 可跨平台应用于全系列产品 [19]
券商信息系统稳定性保障迈入标准化阶段
证券日报· 2025-08-08 00:42
行业监管动态 - 中国证券业协会制定《证券行业信息系统稳定性保障体系标准》并向券商征求意见 旨在推动行业技术能力数智化、规范化与协同化发展 [1] - 监管层多次发文强调需强化金融机构信息系统稳定性保障能力 防范系统性风险并提升系统技术韧性 [1] 行业现状与挑战 - 证券交易系统(集中交易、手机证券、投资交易)若出现异常将直接影响投资者权益与市场秩序 [1] - 分布式架构和微服务技术应用导致系统架构复杂度指数级提升 传统被动运维模式难以适应业务需求 [1] - 行业存在四大痛点:架构韧性设计缺失导致运行期风险防控成本高 运行期风险感知缺乏主动挖掘能力 故障应急依赖个别专家经验 数智化技术应用深度不足 [2] 标准制定原则与框架 - 《标准》编制遵循合规、可控、闭环和数据四大原则 以《证券基金经营机构信息技术管理办法》为基础确保符合监管要求 [2] - 结合头部机构最佳实践提炼可复制技术方案与管理流程 预留弹性空间适应不同规模机构需求 [2] - 提出"三位一体"稳定性保障体系框架:组织保障(组织架构/人员能力/目标管理) 制度保障(全流程制度闭环) 过程保障(10大核心过程含架构管理/故障管理等) [3] 技术应用与评价体系 - 明确融合智能运维、可观测性等前沿技术 将AI算法、大数据分析、大模型嵌入稳定性管理流程 [3] - 建立可量化稳定性度量体系 包括故障监控发现率、自动化发布率、恢复能力达标率等指标 [4] - 通过常态化评估与复盘形成"监控-评估-优化"闭环改进机制 [4]
事关券商交易系统稳定性!中证协出手!
券商中国· 2025-08-07 17:17
行业信息系统稳定性保障 - 中证协正在就《证券行业信息系统稳定性保障体系标准(征求意见稿)》向行业征求意见,旨在推动证券公司加强网络与信息系统安全稳定运行保障体系和能力建设,提高资本市场系统稳定性水平 [1][2] - 文件编制工作在2023年底就已启动,旨在融合行业最佳实践,为行业提供可落地的稳定性保障框架,推动全行业技术能力的数智化、规范化与协同化发展 [2][4] 当前系统运行问题 - 证券市场交易连续性要求高,集中交易、手机证券、投资交易等交易系统若出现异常,将直接影响投资者权益与市场秩序 [3] - 随着云计算、分布式架构等技术的广泛应用,系统架构复杂度显著提升,传统运维模式已难以应对新型风险挑战 [3] - 稳定性保障未将架构韧性设计(如熔断限流、自动恢复)嵌入系统开发阶段,系统可运维性涉及的监控、日志、自动化等能力不足,导致运行期风险防控成本高 [3] - 运行期风险感知仍以"事后响应"为主,缺乏基于数据驱动的主动风险挖掘能力,故障应急以个别专家经验为主,应急效率有待提升 [3] - 数智化技术应用深度不足,智能监控、自动化处置等能力尚未全面覆盖核心场景,导致异常响应效率与业务实时性要求存在差距 [3] "三位一体"保障体系 - 《标准》提出了"三位一体"的稳定性保障体系框架,包括组织保障、制度保障和过程保障 [4][5] - 组织保障明确稳定性保障的组织架构、人员能力要求及目标管理(SLI/SLO量化指标、复盘优化) [4] - 制度保障涵盖办法规范、技术标准、操作规程及时序任务,形成全流程制度闭环 [4] - 过程保障聚焦稳定性架构管理、可观测管理、监控告警、故障管理等10大核心过程,每个过程包含机制保障、关键活动及评价要素 [5] 政策背景与行业实践 - 在数字化转型加速推进的背景下,证券行业信息系统的稳定性已成为保障金融市场安全运行的核心基础 [5] - 《金融科技发展规划(2022-2025年)》《证券期货业科技发展"十四五"规划》《证券公司网络和信息安全三年提升计划(2023-2025)》等政策文件均强调需强化金融机构信息系统的稳定性保障能力 [5] - 《标准》在编写过程中有接近20家同业专家参与编写,内容聚焦系统的稳定性保障核心价值,引导行业推动运维左移来提升架构韧性与可运维性非功能性需求 [5] - 建立可度量的稳定性评价要素,如"故障监控发现率""自动化发布率""恢复能力达标率"等量化指标,并通过常态化评估与复盘,形成"监控-评估-优化"的闭环改进机制 [5]
2025年行业发展研究报告:金融数字化转型中的可观测性实践与趋势洞察
搜狐财经· 2025-07-20 10:07
金融数字化转型与可观测性概述 - 全球数字化转型支出预计2027年达4万亿美元,2022-2027年复合增长率16.2%,中国金融行业IT支出2025年将达3359.36亿元 [8][12] - 金融数字化转型呈现技术融合深化、业务场景扩展、服务模式创新加速三大特征,可观测性市场爆发式增长 [12] - 头部金融机构核心业务系统全面上云,人工智能提升反欺诈准确率,区块链实现跨境支付实时结算 [13] 可观测性技术趋势 - 实时数据采集技术融合多元异构数据源,AI驱动智能根因定位与预测性分析 [20][25] - 分布式系统监控实现毫秒级交易异常识别,流式计算处理百万笔/秒交易数据流 [27] - 智能体协同监控框架通过LLM实现自主故障修复,知识中枢沉淀运维经验 [29] - OpenTelemetry成为多云监控统一标准,支撑跨职能协作 [31] 行业实践案例 银行业 - 全链路监控缩短故障定位时间80%,AI大模型生成故障处置预案 [34][36][39] - 业务黄金指标聚焦成功率、响应时间、吞吐量,KBOM工具提升问题识别准确率 [38] 证券业 - 交易系统响应时间控制在300ms以内,开户业务无纸化改造突破时空限制 [40][43] - 运营驾驶舱实时监控数百项指标,AI智能规则引擎自动化落地合规要求 [41] 保险业 - 数据可视化使核保效率提升35%,3D动态模拟与物联网缩短车险理赔周期 [34][47][48] - 客户旅程地图分析投保转化节点,精准营销策略提升用户留存率 [45][48] 技术支撑与挑战 - 中国云计算市场规模2021年8378亿元,2027年预计持续增长,为可观测性提供基础设施 [2] - 系统复杂化导致故障排查难度上升,需优化数据流转与监控精准度 [2][33]
Datadog:利用人工智能功能实现核心基础设施可能性
美股研究社· 2025-07-01 20:19
AI技术布局 - Datadog在DASH 2025活动上展示了面向基础设施监控平台的全新AI功能,包括AI工作负载的观察、分析、响应和自动化[1] - 公司与OpenAI、Anthropic和ServiceNow等主要AI提供商合作,提供全面的AI代理可观察性功能[1] - 平台新增GPU优化和故障排除功能,可实时监控AI集群的部署和性能[3] - 6月10日发布了AI代理,涵盖事件响应、产品开发和安全训练,可集成到核心平台实现工作流自动化[3] - 推出Code Security工具和Datadog LLM Observability,用于检测漏洞和监控AI模型完整性[3] 财务表现 - 2025财年第一季度收入增长24.6%,调整后营业利润增长1.2%[4] - 年经常性收入超过10万美元的客户持续增长,使用8种以上产品的客户比例上升至13%[5] - 收入增长率从2022年Q1的82.8%逐步放缓至2025年Q1的24.6%[6] - 非GAAP毛利率保持在80%以上,调整后营业利润率从2022年Q1的23.1%降至2025年Q1的21.9%[6] - 预计2025财年收入增长20%,调整后营业利润下降6.5%[7] 市场前景 - 云托管成本上涨和AI技术投资短期内对利润率造成压力[8] - 预计可观测性市场2024-2032年复合年增长率为10.5%[8] - 分析师预测公司年利润率将增长360个基点,主要来自产品附加率提升和运营杠杆[8] - 预计2025-2034年收入保持20%年增长,经营利润率从5.6%提升至38%[10] - 自由现金流预计从2025年的9.62亿美元增长至2034年的60.18亿美元,年增长率23.4%[10] 竞争分析 - ServiceNow拥有自己的服务可观测性平台,并在IT基础设施可观测性市场扩张[13] - ServiceNow的优势在于能从自有平台收集各种数据,且具有更强的创新能力[13] - Datadog通过DASH 2025明确传达了在核心平台中整合AI能力的战略[13] 估值分析 - 采用DCF模型计算,设定WACC为10.5%,终端增长率5%[11] - 公允价值计算为每股145美元[12]
没有RAG打底,一切都是PPT,RAG作者Douwe Kiela的10个关键教训
虎嗅· 2025-07-01 12:09
文章核心观点 - AI在理解上下文和隐性知识方面存在挑战,导致聊天生硬且准确率不足[1][6][11] - RAG技术应用面临工程难度大、专业化要求高、数据护城河构建等核心问题[15][20][26] - 企业AI项目需关注可观测性而非绝对准确率,建立闭环迭代机制[45][46][52] AI技术瓶颈 - 当前AI能覆盖80%场景但业务要求95%准确率[1] - 大模型擅长有限集任务(如围棋)但难以处理语料残缺的隐性知识[8][9][10] - 专家系统需解决医生诊断中的微表情解读、伦理判断等非结构化问题[11] RAG技术实践 - 工程复杂度远超模型:50个SOP需25-50万字提示词,数据工程占80%工作量[15][17][19] - 垂直领域专业化优于通用AI,如法律Harvey、医疗Open Evidence等案例[20][22] - 数据是核心壁垒:企业非结构化数据构建的飞轮系统形成差异化优势[26][28] 生产环境挑战 - 试点项目70分易实现,但生产需处理千万级文档和数万场景[29][30] - 快速迭代比追求完美更重要,初期barely functional即可[33][34][35] - 竞争焦点转向试错速度与资源,但需平衡成本与差异化[36][37][38] 可观测性方法论 - 审计追踪和归因机制比准确率更重要,需记录错误上下文[45][47][48] - 财务审核案例展示4类错误闭环处理:费用标准、发票合规等[51] - 五步方法论:锁定关键字段、显性化规则、双跑道架构等[52] 行业落地建议 - 优先将业务SOP全量导入Workflow,强化基础数据[56] - 建立审计链闭环,积累可观测数据再优化推理[56] - 盘活非结构化资产,通过数据飞轮拉开竞争差距[56][58]
博睿数据: 公司关于上海证券交易所《关于北京博睿宏远数据科技股份有限公司2024年年度报告的信息披露监管问询函》的回复公告
证券之星· 2025-06-24 01:07
经营业绩分析 - 2024年公司实现营业收入1.41亿元,同比增长16.42%,归母净利润-1.15亿元,同比减少8.02%,自2021年以来持续亏损且金额持续扩大 [1] - 前五名客户销售集中度呈下降趋势,2024年前五名客户销售额2820.30万元,占比20.06%,无客户销售额大于1000万元 [1] - 监测服务和软件销售及技术开发服务收入占比从2022年86.83%提升至2024年88.91%,为主要收入来源 [2] 分行业收入结构 - 软件销售及技术开发服务中,互联网及软件信息、金融行业收入占比从2022年67.50%提升至2024年87.50%,集中度持续提升 [2] - 互联网及软件信息行业收入年复合增长率48.72%,主要受益于2023年4月发布的Bonree ONE产品 [2] - 金融行业收入年复合增长率94.40%,Bonree ONE产品收入从2023年556.63万元增至2024年1653.85万元 [2] 客户拓展情况 - 2024年新增客户中,金融行业12家、制造业9家、保险业4家,重点行业渗透率提升 [3] - Bonree ONE产品客户数从2023年42家增至2024年105家,增长率达150% [3] - 2024年新增客户包括某证券(389.40万元)、广州某通信(331.62万元)等,合计贡献收入3554.80万元 [3] APMO市场分析 - 2024年中国ITAO市场规模34.1亿元,其中APMO等细分市场合计26.2亿元,同比增长2.8% [4] - 行业发展分为三阶段:2008-2014年用户体验管理需求阶段、2015-2022年问题定位需求阶段、2023年至今平台化产品转型阶段 [4][5][6] - 金融行业2024年IT运维投入同比增长5%,制造业需求爆发式增长 [6] 产品战略转型 - 公司产品经历主动式产品导入期、被动式工具型产品探索期,2023年进入被动式平台化产品转型期 [7] - 2023年4月推出Bonree ONE平台化产品,2024年被动式产品收入首次超过主动式产品 [7] - 平均合同金额从2022年38.71万元增至2024年55.55万元,年复合增长率19.79% [8] 费用结构分析 - 2024年销售费用7926.19万元,占营收56.39%,其中职工薪酬6100.89万元,占76.97% [18] - 销售人员平均薪酬51.60万元,高于研发人员37.81万元,主要因销售提成占比高 [14][16] - 支付给职工现金持续高于经营活动现金流入,2024年差额-686.17万元,较2022年-2130.69万元有所改善 [25] 行业对比 - 销售费用占比高于可比公司中亦科技(16.53%-68.00%),低于星环科技(54.90%) [24] - 管理费用占比22.58%,低于星环科技31.01%但高于中亦科技 [24] - 人员优化效果显现,人均销售收入从2021年21万元增至2024年33万元 [23]