过去一年他见了 100 位 C 级高管：95% 的企业 AI 项目失败，都不是模型的错

文章核心观点 - 尽管生成式AI模型能力快速进步，但企业在非技术部门部署AI项目的失败率极高，投资回报率微乎其微，其根本原因在于企业流程与AI技术特性不匹配[2][3][6] - 软件工程是AI应用成功的特例，因其工作具有边界清晰、可检验、结构化、可验证的特性，而财务、销售、市场等部门的工作流程复杂、非结构化，导致通用大语言模型难以直接应用[10][13][14][15][16] - 企业AI项目失败存在四种常见模式：跳过流程审计、过度依赖LLM、Agent野蛮生长、将AI视为项目而非基础设施[18][19][22][24][25][26] - 少数成功的公司采取了反常识的实践：深入业务进行流程审计、最小化使用LLM、建立统一的编排平台、组建专职的持续调优团队[29][30][31] - 行业瓶颈已从模型能力转向企业流程，未来的竞争将属于那些能在模型之下构建有效运营层的公司，而非仅仅等待更好的模型[33][37][38] 01 高管口中的"AI-first"，到底在忙什么 - 尽管企业高管宣称“AI优先”并投入数百万美元，但公司日常运营的关键指标（如应付账款月结22天、销售达标率24%、CRM数据年损耗率30%）并未因AI部署而改善[5] - 从GPT-3到GPT-5，Claude 2到4.7，Gemini 1到3，每一代模型更新都未能改变企业AI项目的高失败率，业务部门员工感受不到任何实际变化[5][6] 02 一串冷到刺骨的数字 - 多项权威研究显示，企业AI项目成功率极低：MIT NANDA指出仅5%的试点带来百万级价值；BCG称仅4%实现规模化价值；德勤发现仅6%在一年内实现投资回报[8] - RAND研究表明，超过80%的AI项目失败，是普通IT项目失败率的两倍；IBM指出75%的AI项目未能交付预期投资回报率[8] - 麦肯锡数据显示，虽然78%的公司已在日常使用AI，但超过80%的组织报告AI对息税前利润的影响为零，即利润表上看不到AI带来的变化[8][9] 03 有一群人是例外：工程师 - 软件工程师是AI应用的成功特例，其工作效率获得显著提升：GitHub 2024年研究显示，使用Copilot的工程师完成任务速度提升55%，耗时从2小时41分钟缩短至1小时11分钟[11] - Anthropic 2025年8月内部研究（132名工程师，10万次对话）表明，AI将工程师完成任务的时间削减了约80%[11] - 谷歌CEO Sundar Pichai在2026年初透露，谷歌75%的新代码由AI生成，而2025年4月该比例仅为30%[11] 04 工程师为什么是例外 - 软件工程工作具备四个关键特性，使其非常适合AI应用：边界清楚（任务范围明确）、可检验（通过编译器和测试即时反馈）、底层结构化（代码和版本控制确定）、产出可验证（通过代码审查快速判断）[13] - AI在软件工程领域的成功，核心原因在于该场景本身具备“边界清楚、可检验、结构化、可验证”的属性，为AI提供了巨大的发挥杠杆，而非单纯因为AI技术强大[14] 05 财务、销售、市场：完全不同的世界 - 财务、销售、市场等部门的工作流程与软件工程截然不同，表现为高度复杂、非结构化且依赖隐性知识，例如财务月结涉及多个分散系统（如NetSuite、Concur、多家银行、多套ERP）和非标准操作[16] - 销售运营同样面临数据分散在多个工具（CRM、外呼工具、日历等）且无法对齐的问题，同一团队内部处理潜在客户的标准都不一致[16] - 将通用大语言模型生硬套用于这些高度定制化、非结构化的公司专属流程是无效的，甚至会产生负投资回报率，因为员工需要额外时间为AI纠错[17] 06 四种必死的坑 - 坑1：跳过“审计”：未深入理解真实业务流程就启动开发，导致AI系统与SOP（标准作业流程）存在巨大“一致性缺口”，在应付账款异常处理等场景中，该缺口常超过70%，反而增加团队工作量[19][20][21] - 坑2：什么都扔给LLM：过度依赖大语言模型，系统架构中90%为LLM调用，导致速度慢、成本高且存在幻觉风险；成功系统应85%为确定性代码，仅15%在需要判断的地方使用LLM[22] - 坑3：Agent野蛮生长：员工各自搭建AI工作流，导致一个200人部门可能出现50到100个互不连通、标准不一的Agent，引发集成债务、维护困难和安全风险（如数据泄露）[22][24][25] - 坑4：把AI当项目，不当基础设施：用传统软件项目思路管理AI，但AI依赖的模型、定价、API等要素每季度都在快速变化，导致基于旧有承诺搭建的工作流随时可能失效[26][27] 07 那5%跑通的公司，在做什么 - 深入审计：花费至少4周时间深入业务部门，观察真实操作，绘制SOP与实际流程的每一处落差，期间不编写任何代码[29] - 最小化使用LLM：将工作流拆解至最简，仅在真正需要判断的1-2个步骤使用LLM，其余5到10个步骤使用数据库查询、比较等确定性代码，使系统看起来“几乎无聊”[29] - 统一编排平台：所有部门的Agent运行在同一个编排层上，共享上下文并能相互对话，从根源上杜绝Agent野蛮生长[29] - 组建调优队伍：专门组建团队持续应对模型下架、API变更和业务流程调整，确保系统长期存活[30] 08 一个段子式的细节 - 建立统一的编排平台能产生复利效应：第一个Agent需12周，第二个缩短至9周，第三个仅需4周；没有平台则每个Agent耗时相近，集成债务将吞噬全部AI预算[31] - 大多数AI供应商无法提供此类平台级支持，他们销售的单点解决方案对客户已有的其他系统和个人搭建的Agent一无所知[31] 09 模型实验室自己都默认了这件事 - OpenAI、Anthropic等模型厂商已意识到，仅提供模型或运行时不够，成功需要“模型 + 运行时 + 深入企业厘清需求的团队”[33] - 行业瓶颈始终在于企业流程，有效的解决方案需要结合生产级AI能力与严肃的运营田野工作，即先审计、再拆解、后构建和调优[33] 10 如果从零开始，我会怎么做 - 第1个月：深入业务部门进行审计，输出可指导开发的“数字孪生”流程地图[34] - 第2个月：为高杠杆工作流设计架构，明确每一步使用模型还是确定性逻辑，并选定合适模型（大部分用小而便宜的模型）[34] - 第2.5到4个月：构建并在生产环境软启动，通过人类审批让Agent学习，每日追踪准确率[34] - 第4到6个月：正式上线，在高风险决策中保留人工审核，紧密监控核心指标至少两周[34] - 第6个月：成立持续调优小组，以应对模型市场和内部流程的持续变化[34] - 半年后成果：1个产生实际投资回报率的工作流、1个将后续Agent落地时间从24周缩短至8周的平台、1支保障系统持续运行的调优队伍[35]