集群部署

搜索文档
刚刚 B站又血崩了?!我来告诉你真正原因
菜鸟教程· 2025-06-13 08:18
事故情况 - 事故持续时间长达4小时 从晚上5点多开始出现异常 直到9-10点才陆续恢复 [4] - 影响范围包括:主页报错、视频无法播放、评论区无法加载、博主主页打不开、直播弹幕丢失、系统卡顿、部分页面出现504错误 [4][7][9][11][13][15] - 事故登上各平台热搜 关键词"B站崩了"搜索量达55472次 [4] - 内部消息称事故源于基建discovery故障 约10%请求失败 [17] 技术分析 - 事故等级为P0级 核心问题出在Service Discovery服务发现系统 [19] - 微服务架构高度依赖服务发现 类比商场导购系统瘫痪导致全链路崩溃 [19][20] - 504错误表明网关等待后端响应超时 证实服务发现系统故障 [20] - 仅10%请求失败说明公司采用集群部署和容错机制 包括缓存和降级策略 [20][21] - 直播未中断但弹幕丢失 反映不同业务域服务独立性 [24] 行业启示 - 基础设施稳定性对互联网平台至关重要 [26] - 高可用设计有效降低故障影响 本次事故失败率控制在5%-10% [26] - 监控系统能快速定位核心故障点 [28] - 技术架构不存在100%可靠性 大厂同样面临系统风险 [29]