Cloudflare(NET)
搜索文档
全球网络服务意外中断事件频发,自动化系统竟成风险源
第一财经· 2025-11-19 22:33
服务中断事件概述 - 11月18日,Cloudflare发生服务中断,导致X和ChatGPT等主要互联网平台无法访问,当天晚些时候服务全面恢复 [1] - 上个月,亚马逊云服务发生宕机,导致包括Snapchat和Reddit在内的数千个热门网站和应用程序无法访问,引发全球混乱 [1] 服务中断原因分析 - Cloudflare服务中断原因是其自动生成的、用于管理安全威胁的配置文件体积过大,导致负责流量的软件系统崩溃 [1] - 亚马逊云服务故障源头指向其位于美国北弗吉尼亚的大型数据中心设施,该地区承载全球约13%和美国四分之一的数据中心 [2] - 没有证据表明这两次网络服务中断事件与网络攻击或恶意活动有关 [2] 行业核心矛盾与风险 - 网络频繁宕机暴露了现代超大规模网络基础设施的核心矛盾:为追求效率和响应速度而建立的高度自动化系统,其本身可能成为风险源 [1][2] - 自动化系统无法正确处理其预定义场景之外的意外情况,这带来了网络安全新风险,为未来自动化系统的完善提出挑战 [2] - Cloudflare处理着全球约五分之一的网络流量,并保护网站和应用程序免受流量激增和网络攻击的影响 [1] 行业趋势与应对策略 - 在网络自动化和智能化趋势不可阻挡的背景下,未来企业需要更加谨慎地应用自动化智能化技术,对其风险进行充分评估,并采用更为弹性的使用策略 [2] - 未来的互联网将是一个由防火墙、主权云和物理隔离带构成的"复杂迷宫",价值不再仅取决于连接速度,更取决于连接的韧性 [3] 中国市场运营情况 - 在Cloudflare此次全球服务中断过程中,中国运营未受影响 [3] - 在中国,Cloudflare采用与京东云等合作伙伴合作的方式建设国内数据中心并提供网络服务,即由合作伙伴承载其中国区业务 [3]
Elle Communications is Agency of Record for FDA-Cleared Neurostimulation Device
Accessnewswire· 2025-11-19 22:00
公司动态 - 公司为NET Recovery,其NET Device™是一种获得FDA许可的神经刺激设备[1] - 该设备近期研究显示具备减少阿片类和兴奋剂使用的潜力[1][2] - 一项经同行评审的新研究发表在《精神病学前沿》杂志上,证实该设备在治疗后能显著减少阿片类和兴奋剂使用[1] 行业背景 - 行业面临创纪录的过量用药死亡危机[1] - 目前尚无任何FDA批准的用于治疗兴奋剂成瘾的药物[1]
Cloudflare CEO Apologizes for 'Unacceptable' Outage and Explains What Went Wrong
CNET· 2025-11-19 21:45
事件概述 - Cloudflare在周二发生服务中断,导致包括OpenAI、Spotify、X、Grindr、Letterboxd和Canva在内的许多网站和服务无法访问 [1] - 中断始于太平洋时间凌晨3:30左右,大部分受影响的站点和服务在超过三小时后恢复,当天结束时一切恢复正常 [3] 中断原因 - 中断并非由网络攻击直接或间接引起,最初公司怀疑是“超大规模DDoS攻击” [4] - 实际原因是内部软件故障,Cloudflare一个数据库的变更生成了一个大于预期的功能文件,导致软件无法运行而失败 [5] - 公司在识别问题后,用早期版本替换了有问题的文件,太平洋时间上午6:30大部分流量恢复正常 [5] 影响范围 - Cloudflare被约20%的网站使用,是提供互联网关键基础设施的服务之一 [2] - Downdetector在中断期间收到超过210万份问题报告,其中美国超过43.5万份,英国、日本和德国是其次受影响最严重的国家 [7] - 其他受影响公司收到的报告数量包括:X(320,549份)、英雄联盟(130,260份)、OpenAI(81,077份)、Spotify(93,377份)和Grindr(25,031份) [8] 事件时间线 - Cloudflare在太平洋时间凌晨3:48首次确认中断,并发布声明称正在调查影响多个客户的问题 [10] - 太平洋时间凌晨5:09,公司表示问题已确定,正在实施修复,随后几小时错误开始减少,服务逐渐恢复 [10] - 太平洋时间上午9:14,Cloudflare补充说大多数服务已恢复正常,并将尽快提供完整的事件后调查细节 [11] 行业影响与风险 - 此次中断发生在上个月亚马逊网络服务中断之后,引发了对互联网大片区域依赖少数集中式服务是否明智或安全的质疑 [12] - 分析师指出,这次3小时20分钟的中断,考虑到停机时间和下游影响,可能造成约2.5亿至3亿美元的直接和间接损失 [13] - 重大中断也凸显了人们对日益依赖人工智能的担忧,特别是人工智能日常运行所依赖的基础设施的脆弱性 [13] - 此次问题暴露了数千亿甚至万亿美元的人工智能投资,其可靠性仅等同于其最不受审查的第三方基础设施 [14]
BMW welcomes 'positive signals' in Nexperia dispute
Reuters· 2025-11-19 18:23
核心观点 - 德国汽车制造商宝马公司对有关安世半导体争议的积极信号表示欢迎 但认为局势仍然不稳定 [1] 公司动态 - 宝马公司对安世半导体争议出现积极信号表示欢迎 [1] - 宝马公司认为当前局势仍然充满波动性 [1]
Rust闯大祸了,重写53天后Cloudflare搞出六年来最大失误,ChatGPT、Claude集体失联
36氪· 2025-11-19 18:08
事件概述 - 美国东部时间11月18日凌晨,Cloudflare遭遇持续约五个半小时的大范围服务中断,导致多款热门网站和AI服务下线 [1] - 服务中断表现为出现错误提示及延迟升高,影响了包括CDN、应用服务产品套件、WARP VPN及Cloudflare Access等多项服务 [2][3] - 此次是该公司自2019年以来最严重的一次宕机,导致其股价下跌了约3% [12] 影响范围 - 全球约20%的网站依赖Cloudflare管理和保护流量,此次宕机影响了OpenAI的ChatGPT和Sora、Claude、Shopify、X、Spotify、Truth Social、Canva、Letterboxd以及美国新泽西州公共交通系统官网等 [1][2] - 故障还波及了为云端及本地工作负载提供CDN功能的应用服务产品套件,以及保护这些工作负载应用程序接口的网络安全功能 [2] 故障原因 - 宕机根本原因是一个自动生成的威胁流量管理配置文件条目数量超出预期规模,导致为多项服务处理流量的软件系统崩溃 [9] - 具体而言,底层ClickHouse查询行为的一项变更导致生成的特征配置文件中出现大量重复行,文件大小翻倍后超出了软件设定的限制,引发核心代理系统向流量返回HTTP 5xx错误码 [10][11] - 此次宕机由公司的恶意机器人流量过滤功能引发,并非攻击所致,其机器人防护功能所依赖的一项服务在常规配置变更后出现潜在漏洞 [9] 故障时间线与恢复过程 - 故障始于美国东部时间11月18日凌晨5点20分左右,Cloudflare发现平台出现异常流量 [2] - 约一个半小时后,公司发布公告告知客户此次宕机事件 [2] - 上午8点09分,公司表示问题已查明并正在实施修复,随后重新启用了伦敦地区的WARP服务 [3] - 控制面板服务于上午9点34分恢复,上午9点42分,公司宣布已修复宕机的根本原因 [3] - 服务中断最终于上午11点44分结束,整个持续时间为五个半小时 [1][3] 公司响应与后续措施 - Cloudflare承认此次是六年来最严重的宕机,并深感辜负了客户信任 [12] - 公司公布了后续加固系统的步骤,包括强化对内部生成配置文件的接收校验、为相关功能增设更多全局紧急关闭开关、避免错误报告占用过多系统资源,以及全面审查所有核心代理模块的错误场景故障模式 [12] 行业影响与评论 - 事件暴露了互联网对单一服务供应商的严重依赖性问题,有评论指出此类宕机事件充分暴露了互联网的脆弱性 [13] - 有分析认为,此次宕机暴露了Cloudflare自身服务之间过度的耦合问题,导致控制面板无法访问,影响了服务恢复速度 [13] - Cloudflare平台通过将网站内容分布在全球数据中心,能为全球95%的人口提供50毫秒或更低的延迟,其架构还将流量处理任务卸载到CDN以减轻网站运营商服务器负载 [8][9]
AI杀死了AI,Cloudflare全球崩盘惨案,元凶已被原地解雇
36氪· 2025-11-19 16:04
事件概述 - 2025年11月18日,Cloudflare发生全球性服务中断,导致约20%的网站服务受到影响,被称为“半个互联网的停摆” [1][10] - 故障高峰期间,网站故障追踪平台Downdetector累计收到逾210万条报错反馈 [10] - 事故导致Cloudflare股价盘中一度重挫约7% [10] 影响范围 - 全球约20%依赖Cloudflare提供服务的网站受到波及,包括ChatGPT、X(前Twitter)、亚马逊、Spotify、Zoom、Uber等知名服务 [1][10] - 部分监测工具(如Downdetector)因自身也使用Cloudflare服务而在事故中一同瘫痪 [10] - 故障持续了约三个小时,对全球AI数字生态系统造成重大冲击 [1][13] 事故原因 - 事故源于一次常规的数据库权限维护更新,工程师将“系统账号”改为“个人账号”以明确责任 [19] - 权限变更触发了一段老旧代码的缺陷,该代码负责生成用于识别网络机器人的“特征名单”(Feature File) [19] - 代码在权限升级后同时从默认数据库和备份数据库抓取数据,导致特征名单内容重复,长度膨胀一倍 [19] - Cloudflare核心转发软件有硬性规定:特征名单长度不能超过200条,以保障速度 [20] - 膨胀后的名单触发了软件的内存溢出保护机制(Panic),导致软件崩溃并切断了所有连接 [20] 行业与技术背景 - 导致崩溃的核心组件是“机器人管理系统(Bot Management)”,其主要设计目标是防御AI爬虫 [26] - 随着大模型训练对数据需求激增,互联网上自动化AI抓取程序泛滥,迫使防御系统不断升级算法,特征文件(即参数集)变得越来越复杂 [26] - 本次故障直接原因是特征数量突破了200个的硬编码限制,暴露了AI时代基础设施的“内卷化”困境:用复杂的AI防御系统对抗复杂的AI进攻程序 [26][28] - 事件揭示了全球互联网生态对单一底层服务提供商(Cloudflare)的高度依赖 [10] - 有团队(如吴恩达团队)在事故期间利用AI快速克隆了Cloudflare部分功能,实现了网站早期恢复 [31] 公司回应 - Cloudflare首席技术官(CTO)公开发布声明承认错误 [9] - 公司在其官方博客上对事故进行了详细复盘 [19][37] - 社交媒体信息显示,一名自称涉事工程师的员工在事故后被公司解雇 [34][35]
Cloudflare重大宕机引发全球网站大面积访问故障
国际金融报· 2025-11-19 15:47
事件概述 - 美东时间11月18日清晨,互联网基础设施服务商Cloudflare发生大规模宕机,导致其网络和安全服务出现故障 [1] - 大量全球知名互联网服务出现访问速度下降、页面报错或完全无法访问的状况,影响范围涵盖社交网络、人工智能服务、电商、云服务及部分公共交通系统 [1] 影响范围 - 监测数据显示,X、Spotify、OpenAI、亚马逊云服务AWS、Shopify、Truth Social等多项服务出现大面积故障 [1] - 甚至连网络状态监测网站DownDetector自身也因依赖Cloudflare服务而短暂无法访问 [1] - 后续确认OpenAI、Spotify、Shopify、Canva、Zoom以及部分公共交通服务均因"第三方服务问题"受到影响 [8] 故障时间线与处理 - 当天清晨5点20分左右,Cloudflare监测到网络中出现异常流量激增 [1] - 故障发生后不到两小时,公司表示已开始调查问题 [1] - 上午7点30分左右,部分服务开始恢复,但用户仍可能遇到访问延迟或错误 [1] - 进入8点,公司确认找到了故障源头并推进修复 [1] - 9点42分至9点57分,公司宣布核心问题已经解决,大量受影响网站陆续恢复 [1] 事故根本原因 - 事故根本原因来自公司内部一套用于识别和阻断恶意机器人流量的自动生成配置文件 [2] - 该配置文件在例行升级后规模意外变大,远超系统预期,最终触发负责整体流量处理的软件组件持续崩溃 [2] - Cloudflare首席技术官在社交媒体上公开致歉,承认公司辜负了客户和整个互联网 [2][4] 市场与行业影响 - 作为全球处理约20%互联网流量的重要基础设施提供方,此次故障导致公司股价在事件发生后短时间内下跌超过2% [5] - 网络连接监测组织认为,本次事件展示了Cloudflare基础设施在出现灾难性故障时对互联网带来的系统性冲击,使其成为互联网"最大的单点故障之一" [7] - 网络安全顾问指出,由于可选择的托管平台有限,大量企业严重依赖Cloudflare、AWS或微软等大型服务商,集中度过高意味着任何一次重大故障都可能引发连锁反应 [7] 近期行业类似事件 - 此次宕机是全球互联网基础服务近期发生的又一次大规模事故 [8] - 一个月前,亚马逊AWS出现持续故障,导致超过一千个网站和在线应用数小时瘫痪 [8] - 微软Azure及365服务也曾发生全球性宕机 [8] - 今年7月,美国网络安全服务提供商CrowdStrike的一次软件升级错误造成全球范围蓝屏事故,影响持续多日 [8]
Rust 闯大祸了!重写 53 天后 Cloudflare 搞出六年来最大失误,ChatGPT、Claude 集体失联
AI前线· 2025-11-19 15:00
事件概述 - Cloudflare发生持续约五个半小时的全球性服务中断,导致多款热门网站和AI服务下线[2] - 服务中断表现为出现错误提示及延迟升高,美国东部时间11月18日凌晨5点20分左右首次发现平台异常流量[2] - 此次服务中断于美国东部时间上午11点44分结束,是公司自2019年以来最严重的一次宕机[4][15] 影响范围 - 全球约20%的网站依赖Cloudflare管理和保护流量,此次宕机影响了包括X、Spotify、OpenAI的ChatGPT和Sora、Claude、Shopify等热门服务[2][3] - 故障波及了其应用服务产品套件,包括CDN服务、WARP虚拟专用网络(VPN)服务以及Cloudflare Access零信任网络访问(ZTNA)工具[2][3] - 公司股价在大范围宕机期间下跌了约3%[14] 故障原因 - 宕机根本原因是一个自动生成的威胁流量管理配置文件条目数量超出预期规模,导致为多项服务处理流量的软件系统崩溃[11] - 具体技术原因是底层ClickHouse查询行为的一项变更导致生成的文件中出现大量重复的"特征"行,使特征配置文件尺寸翻倍并超出软件限制[12][13] - 问题由公司的恶意机器人流量过滤功能引发,并非攻击所致,是机器人防护功能所依赖的一项服务中存在潜在漏洞在一次常规配置变更后开始崩溃[11] 故障处理与恢复 - 公司工程师在美国东部时间上午8:09查明问题并实施修复,控制面板服务于上午9:34恢复,上午9点42分修复根本原因[4] - 修复过程包括阻止超出预期大小的特征文件继续传播,并替换为早期版本[13] - 在故障排查过程中,工程师关闭了伦敦地区的WARP虚拟专用网络(VPN)服务[3] 系统架构与业务模式 - Cloudflare运营着全球约20%网站所依赖的内容分发网络,通过创建网站内容的多个副本并分布在全球各地数据中心来运作[11] - 该架构能为全球95%的人口提供50毫秒或更低的延迟,通过将流量处理任务卸载到CDN减轻网站运营商的服务器负载[11] - 公司提供网络安全功能,能够过滤恶意机器人程序及其他威胁,其机器人管理模块包含机器学习模型为流经网络的每一项请求生成机器人评分[11] 历史比较与行业评论 - 这是公司自2019年以来最严重的一次宕机,过去六年多里从未出现过导致大部分核心流量无法通过网络传输的情况[15] - 公司上一次重大宕机发生在6月,当时超过六项服务下线约两个半小时,由Workers KV数据存储平台的故障引发[15] - 有评论认为此次宕机暴露了公司自身服务之间过度的耦合问题,以及互联网对单一供应商的严重依赖[17]
X与ChatGPT等一度瘫痪,Cloudflare因配置异常致全球范围断网而致歉
环球网资讯· 2025-11-19 11:54
事件概述 - 互联网流量基础设施服务商Cloudflare因配置文件异常引发系统崩溃,导致X、ChatGPT、Spotify、Canva等全球大量网站和应用出现访问故障 [1] - 目前主要服务已恢复,但部分用户仍可能遇到间歇性错误 [1] 事件原因与处理 - 故障由一条自动生成且体量过大的配置文件触发,导致核心流量处理软件崩溃,造成“内部服务降级” [5] - 公司强调该问题由技术问题造成,无证据表明事件源于网络攻击或恶意活动 [5] - 公司已实施修复并持续监控,实时状态页显示“事件已解决”,并就事件公开致歉 [5] - 公司表示将复盘配置管理流程并加强冗余设计,以防止类似事件重演 [5] 影响范围与表现 - 监测平台Downdetector的众包数据显示,故障高峰时段X、ChatGPT、Zoom、Grindr、Archive of Our Own等站点报告量激增 [5] - 部分受影响的页面提示“内部服务器错误”或要求用户解除对Cloudflare域名的拦截 [5] - 受消息影响,Cloudflare公司股价在周二盘中下跌约3% [5] 行业影响与讨论 - 此次中断凸显了Cloudflare作为“单点故障”对全球网络稳定性的重大影响 [5] - 此次断网距离亚马逊AWS“US-EAST-1”区域故障不足一个月,再次引发业界对集中式基础设施依赖风险的讨论 [5]
Cloudflare全球网络崩了,目前已恢复正常
21世纪经济报道· 2025-11-19 10:10
网络服务中断事件概述 - 网络安全公司Cloudflare的全球网络服务发生中断,故障持续数小时后已解决 [2] - 中断导致美国主要能源监管机构、ChatGPT及社交媒体平台X等众多网站一度瘫痪 [2] - 截至纽约时间上午10点,受影响服务已恢复正常 [2] 故障原因与处理 - 公司于美国东部时间上午6:20左右发现某项服务出现"异常流量激增",导致部分数据传输错误 [2] - 问题在六小时内修复,源于一个用于管理威胁流量的自动生成配置文件 [2] - 目前没有证据表明存在网络攻击或恶意活动 [2] 公司业务概况 - Cloudflare是一个全球性云平台,为世界各地各种规模的企业提供广泛的网络服务 [2] - 公司业务旨在提高客户关键互联网资产的性能和可靠性 [2] - Cloudflare为全球125个国家/地区的330个城市提供数据传送服务 [2]