Workflow
差分火焰图
icon
搜索文档
教科书《性能之巅》作者入职OpenAI,迷弟总裁亲自欢迎
36氪· 2026-02-09 08:33
公司核心人事动态 - 系统性能优化领域顶级专家Brendan Gregg正式加入OpenAI [1] - 他将加入ChatGPT性能团队,在澳大利亚远程办公,向团队负责人Justin Becker汇报 [1] - OpenAI总裁Brockman亲自欢迎,并自称是其多年老粉丝 [2] 新员工的技术背景与行业地位 - 被技术圈尊称为“性能之神”,其代表著作《性能之巅》是全球高校和科技巨头性能工程的必读教材 [4] - 发明了著名的火焰图,使程序员能直观地看到CPU工作热点 [8] - 是Linux内核核心技术eBPF的主要推动者,构建了现代云计算的性能分析工具箱 [10] - 其作品被网友评价为“next level” [10] - 他撰写的《性能之巅》和《BPF Performance Tools》是后端和运维领域解决系统瓶颈的“圭臬”和“最后救命稻草” [14] - 他是USENIX LISA杰出成就奖获得者,将系统诊断从“玄学”变成了科学 [27] 新员工的职业履历 - 早期在Sun Microsystems和Joyent任职,是DTraceToolkit的核心开发者,奠定了在动态追踪领域的元老地位 [18] - 中期在Netflix担任高级性能架构师,处理全球最大云端架构的海量并发请求和复杂微服务性能问题 [19][20] - 加入OpenAI前担任Intel Fellow,专注于解决软件工程师理解硬件性能监控单元数据的痛点 [20] 新员工的技术贡献与方法论 - 开发了火焰图和差分火焰图,用于直观分析CPU热点和对比版本性能差异 [8][23][25] - 推广了Off-CPU分析方法论,专门分析因I/O等待导致的进程性能问题 [25] - 长期维护和贡献Linux生态的标准工具集bcc和bpftrace [26] - 开发了延迟热力图以揭示被平均值掩盖的长尾抖动 [27] - 创建了为排查者指路的USE方法 [27] 新员工加入公司的动机与行业观察 - 其个人工作哲学是“做任何事,都要规模化地做,并且就在今天做”,追求在成千上万台机器上快速见效的优化 [12] - 认为OpenAI“没禁区”的环境为其性能提升工作提供了理想的折腾空间 [12] - 观察到AI已渗透至理发师、房地产经纪人等普通人的日常使用中,意识到背后流量巨大,对后台压力增加了一个量级 [12] - 认为通用计算时代的旧优化方法在面对数万张GPU组成的超级集群和复杂神经网络时已不适用 [13] - 行业需要针对大模型训练重新建立一套专门的工程方法 [13] - 其具体工作目标是解决ChatGPT背后的性能瓶颈,确保其在全球高负载下稳定高效运行 [13] - 个人情结源于童年对科幻剧《Blake‘s 7》中超级计算机Orac的迷恋,认为ChatGPT是Orac的现实版,加入公司是为了续写童年梦想 [28][29]
教科书《性能之巅》作者入职OpenAI!迷弟总裁亲自欢迎
量子位· 2026-02-08 12:46
文章核心观点 - 系统性能优化领域的顶级专家Brendan Gregg已正式加入OpenAI,他将加入ChatGPT性能团队,致力于解决大规模AI基础设施的性能瓶颈问题[1][2] - Brendan Gregg的加入源于其个人职业追求与行业趋势的契合:他寻求在“无禁区”的环境中进行快速、大规模的优化,并认为AI时代需要全新的性能工程方法来解决传统工具无法应对的挑战[12][13][16][17][19] - 此次人事变动被视为OpenAI强化其AI系统(特别是ChatGPT)底层基础设施性能和可扩展性的关键举措,以应对全球用户激增带来的巨大流量压力[18][21] Brendan Gregg的行业地位与成就 - 被技术圈尊称为“性能之神”,其代表著作《性能之巅》是全球高校和科技巨头在性能工程领域的必读教材[3][6] - 是多项核心性能分析工具与方法的发明者或主要推动者,包括:火焰图(Flame Graphs)、差分火焰图、Off-CPU分析方法论、延迟热力图以及USE方法[8][30][34][36] - 是Linux内核核心技术eBPF的主要推动者,并长期维护和贡献bcc和bpftrace工具集,构建了现代云计算的性能分析工具箱[10][36] - 拥有超过20年的顶尖实战经验,职业生涯横跨Sun Microsystems、Joyent、Netflix(担任高级性能架构师)以及Intel Fellow,专注于解决极端规模下的性能难题[24][26][27] - 其贡献获得行业权威认可,例如获得USENIX LISA颁发的杰出成就奖[36] 加入OpenAI的具体原因与目标 - **追求极致的优化速度与规模**:其工作哲学是“做任何事,都要规模化地做,并且就在今天做”,要求优化方案能在当天于成千上万台机器上部署并立刻见效[13][14][15] - **OpenAI提供“无禁区”的创新环境**:公司文化鼓励为提升性能而进行任何领域的改变,没有被视为难以改变的禁区[16] - **应对AI时代的新挑战**:观察到AI(如ChatGPT)已成为普通人日常工具,背后流量巨大,对后台压力增加了一个量级,传统基于CPU和数据库调优的旧方法已不适用[18] - **解决全新的工程问题**:面对由数万张GPU组成的超级集群和复杂神经网络,需要摒弃旧经验,重新打造一套专门针对大模型的工程方法[19][20] - **具体任务**:解决ChatGPT背后的性能瓶颈,确保其在全球高并发使用下仍能保持高速运行[21] - **个人情怀**:实现童年梦想,将ChatGPT视为其童年喜爱的科幻剧中的超级计算机Orac的现实版本,加入OpenAI是续写这一梦想[38][39][41] 行业背景与挑战 - **AI应用普及化**:ChatGPT等AI工具已被理发师、房地产经纪人、税务会计师等各种职业的普通人广泛使用,表明其已深入日常生活,带来前所未有的用户流量[18] - **基础设施范式转移**:AI计算从传统的通用计算转向基于大规模GPU集群和神经网络的计算,性能瓶颈和优化重点发生了根本性变化[18][19] - **性能工程需求升级**:旧时代的性能工具箱(如针对CPU和数据库的调优工具)已无法有效诊断和修复大模型训练与推理这类“新机器”的问题[19] - **行业共识**:网友及行业观察者认为,AI的发展不仅需要“更大的模型”,更需要顶尖的基础设施与可观测性专家来确保系统稳定高效运行[11]