千亿级请求下,飞猪如何将广告外投系统超时率爆降至0.01%
搜狐财经·2026-01-24 21:08

文章核心观点 飞猪对其RTA(实时竞价接口)系统进行了一次系统性优化,旨在提升研发效能和系统性能,以应对业务策略复杂度提升和流量规模持续增长带来的挑战,优化后系统在性能、成本、研发效率和业务价值方面均取得显著成果 [1][5][28][30] 系统架构与挑战 - RTA系统是广告投放的实时决策端,日均处理千亿级请求(百万级QPS),对接了头条、小红书、华为等10+头部广告媒体渠道 [1] - 流量通过阿里妈妈广告交易平台(Tanx平台)统一转发或媒体直连两种方式接入 [2][5] - 系统整体分为网关层和业务逻辑层,需在毫秒级窗口内完成多阶段实时决策 [2] - 早期RTA与多个业务模块共部署,99%的流量由RTA产生,但任何功能迭代都需全量发布,资源投入与业务价值不匹配 [3] 研发效能升级 - 应用架构解耦:将RTA从原应用中独立拆分,因其流量占比最高、业务逻辑相对独立,优化ROI最显著 [3][7] - 技术栈升级:采用Java技术栈,升级至JDK21(虚拟线程)、SpringBoot 3.x(比2.x快约10-20%)并进行网络中间件优化 [4] - 发布流程优化:以“分钟级恢复”为目标,优化发布链路,应用重启时间降低约80%+,发布周期从至少1天缩短至约2小时 [11][18] - 测试提效:设计流量采集和回放系统,利用线上真实流量作为测试用例,测试周期从3天缩短至1天 [8][18] - AI Coding应用:针对RTA多渠道接入场景,通过AI Coding高效完成核心链路代码框架升级,新媒体渠道接入周期从5天缩短至2天 [10][18] - 监控体系精细化:细化异常码,构建Pipeline实时折损漏斗,问题发现与定位效率提升40% [18] 极致性能优化 - 网络层优化:通过单元化部署根治跨地域网络延迟,将小红书南通区域流量直连中心机房后,超时率从30%骤降至8%,最终单元化部署使阿里妈妈侧超时率降至0.07%,小红书直连超时率从30%降至0.01% [13][20][23] - HTTP长连接复用:启用HTTP长连接复用,节省TCP建连时间(约30ms),RTT次数从2次降为1次,解决首次请求超时难题 [14][16][19] - 网关层深度调优:优化Tengine配置,启用与后端应用的长连接池,TIME-WAIT连接总量下降99%,集群CPU使用率下降近10个百分点,并在缩容15%服务器后保持健康水位 [20][24] - 应用层优化:优化日志系统,通过协议精简(日志体积减少50%)、批量聚合、异步刷盘和分层采样,使CPU使用率降低9个百分点,日志文件大小减少60% [21][25][29] - 主动熔断机制:在核心依赖调用中引入主动超时熔断机制,平滑接口P99延迟波动 [26][27] 业务层优化与成果 - 设备身份治理:重构召回策略,构建多维身份并行召回引擎,并统一改造8个核心离线表的数据格式,解决了因ID不匹配导致的策略失效问题,提升了参竞效率和投放精准度 [30] - 成本与性能成果:在整体QPS提升60%+的前提下,服务器数量降低30%,单机CPU水位进一步降低15%,RTA接口平均RT下降20% [18] - 研发效率成果:测试周期缩短约65%,发布周期压缩超80%,新渠道接入效率提升60%+ [30] - 业务价值成果:参竞效率显著提升,拉新重复率大幅下降,用户质量明显改善 [30]

千亿级请求下,飞猪如何将广告外投系统超时率爆降至0.01% - Reportify