Workflow
原子性
icon
搜索文档
“我可能不再建议学计算机”!图灵奖得主炮轰半个行业,并断言:AI Agent最后全是数据库问题
AI前线· 2026-05-01 13:33
数据库行业历史与现状批判 - 图灵奖得主Mike Stonebraker认为计算机科学未来很可能不再是一个增长型行业,对建议年轻人学习计算机持保留态度 [2][65] - 批评Oracle创始人Larry Ellison早期的销售策略是“撒谎”,将未实现的功能卖给客户并让其帮助debug [3][12] - 批评Google早期推广的MapReduce和最终一致性是“愚蠢”的,Hadoop效率低得离谱,最终一致性只适合极少数场景,Google后来通过Spanner回归了传统事务系统 [3][28][29][32] - 批评AWS同时维护大约15种数据库产品,认为其中许多(如图数据库)缺乏足够的性能和市场理由,真正需要的可能只有3种 [3][35][36] 数据库技术演进与核心理念 - 关系模型相比早期的Codasyl网络结构和IBM的IMS层次结构更为合理,是Ingres项目的起点 [9] - 从Ingres到Postgres最核心的变化是引入了可扩展类型系统,允许用户自定义数据类型(如GIS的几何类型、债券业务的时间计算规则)以高效支持更多领域 [13][14][15] - 提出“One size fits none”观点,认为通用型数据库并非最优解,针对具体需求定制的方案(如流处理、列式存储)性能可高出传统方案一个数量级 [16][17] - Postgres在低端通用场景(非每秒百万次事务或PB级数据仓库)是最好用的起点,拥有巨大开发者社区且免费,但在高端场景缺乏竞争力 [18][19] 数据库与硬件/新架构 - GPU的SIMD(单指令多数据)模式与索引(如B树)存在冲突,索引所需的串行内存访问难以并行化,因此当索引是正确答案时GPU通常不是好选择 [20][21][22][23] - 查询优化器是数据库系统中最难实现的部分,其算法层面非常复杂 [25][26] - DBOS项目提出用数据库系统替换Linux操作系统上半部分(如调度器、文件系统)的核心状态管理,证明基于数据库的文件系统比Linux文件系统更快,并能天然获得高可用等特性 [39][40][45] - DBOS公司在此基础上转型,提供支持TypeScript、Java、Go、Python的编程框架,将应用状态持久化在数据库中,并支持事务性的工作流,其三分之二的客户目前从事只读型Agentic AI应用 [41][42][43] AI与数据库的结合与挑战 - 当前大多数Agentic AI本质是“大模型 + 一层系统包装”,且多处于“只读”阶段,一旦进入“读写”世界(如转账、更新库存),核心问题将回归分布式数据库的事务、一致性、原子性 [4][43] - 在公开的text-to-SQL基准测试(如Spider、Bird)上,大模型准确率可达80%甚至85%,但在四个真实生产数据仓库的测试中,大模型准确率为0% [6][50][54] - 即使结合RAG等技术,在真实数据仓库测试中准确率仅能提升至10%;若明确提供FROM子句和JOIN条件,准确率最高也只能达到35%,远低于熟练人类工程师90%以上的准确率 [6][54][59][60] - 真实场景的挑战包括:业务数据不在模型训练语料中、SQL查询复杂度高(常为100行起步)、Schema混乱(表名列名不直观、存在大量物化视图)、以及存在大量系统特有的本地化概念 [55][56] - 应对思路包括:将复杂查询拆解为包含FROM和JOIN条件的简单片段;将不同来源的数据(如SQL、CAD、文本)都转化为表,再用类查询优化器的方式进行处理 [58] 职业发展与行业展望 - 对于刚起步的人,建议选择一个非主流、不随大流的技术方向并努力做成 [65] - 在职业选择上,认为医疗保健、建筑、维修等工种是相对安全的选择,而计算机科学行业的增长性存疑 [65] - 强调工作热情的重要性,认为从事真正有热情的事业比纯粹为了谋生更能获得满足感 [67]