文章核心观点 - 尽管生成式AI模型能力快速进步,但企业在非技术部门部署AI项目的失败率极高,投资回报率微乎其微,其根本原因在于企业流程与AI技术特性不匹配[2][3][6] - 软件工程是AI应用成功的特例,因其工作具有边界清晰、可检验、结构化、可验证的特性,而财务、销售、市场等部门的工作流程复杂、非结构化,导致通用大语言模型难以直接应用[10][13][14][15][16] - 企业AI项目失败存在四种常见模式:跳过流程审计、过度依赖LLM、Agent野蛮生长、将AI视为项目而非基础设施[18][19][22][24][25][26] - 少数成功的公司采取了反常识的实践:深入业务进行流程审计、最小化使用LLM、建立统一的编排平台、组建专职的持续调优团队[29][30][31] - 行业瓶颈已从模型能力转向企业流程,未来的竞争将属于那些能在模型之下构建有效运营层的公司,而非仅仅等待更好的模型[33][37][38] 01 高管口中的"AI-first",到底在忙什么 - 尽管企业高管宣称“AI优先”并投入数百万美元,但公司日常运营的关键指标(如应付账款月结22天、销售达标率24%、CRM数据年损耗率30%)并未因AI部署而改善[5] - 从GPT-3到GPT-5,Claude 2到4.7,Gemini 1到3,每一代模型更新都未能改变企业AI项目的高失败率,业务部门员工感受不到任何实际变化[5][6] 02 一串冷到刺骨的数字 - 多项权威研究显示,企业AI项目成功率极低:MIT NANDA指出仅5%的试点带来百万级价值;BCG称仅4%实现规模化价值;德勤发现仅6%在一年内实现投资回报[8] - RAND研究表明,超过80%的AI项目失败,是普通IT项目失败率的两倍;IBM指出75%的AI项目未能交付预期投资回报率[8] - 麦肯锡数据显示,虽然78%的公司已在日常使用AI,但超过80%的组织报告AI对息税前利润的影响为零,即利润表上看不到AI带来的变化[8][9] 03 有一群人是例外:工程师 - 软件工程师是AI应用的成功特例,其工作效率获得显著提升:GitHub 2024年研究显示,使用Copilot的工程师完成任务速度提升55%,耗时从2小时41分钟缩短至1小时11分钟[11] - Anthropic 2025年8月内部研究(132名工程师,10万次对话)表明,AI将工程师完成任务的时间削减了约80%[11] - 谷歌CEO Sundar Pichai在2026年初透露,谷歌75%的新代码由AI生成,而2025年4月该比例仅为30%[11] 04 工程师为什么是例外 - 软件工程工作具备四个关键特性,使其非常适合AI应用:边界清楚(任务范围明确)、可检验(通过编译器和测试即时反馈)、底层结构化(代码和版本控制确定)、产出可验证(通过代码审查快速判断)[13] - AI在软件工程领域的成功,核心原因在于该场景本身具备“边界清楚、可检验、结构化、可验证”的属性,为AI提供了巨大的发挥杠杆,而非单纯因为AI技术强大[14] 05 财务、销售、市场:完全不同的世界 - 财务、销售、市场等部门的工作流程与软件工程截然不同,表现为高度复杂、非结构化且依赖隐性知识,例如财务月结涉及多个分散系统(如NetSuite、Concur、多家银行、多套ERP)和非标准操作[16] - 销售运营同样面临数据分散在多个工具(CRM、外呼工具、日历等)且无法对齐的问题,同一团队内部处理潜在客户的标准都不一致[16] - 将通用大语言模型生硬套用于这些高度定制化、非结构化的公司专属流程是无效的,甚至会产生负投资回报率,因为员工需要额外时间为AI纠错[17] 06 四种必死的坑 - 坑1:跳过“审计”:未深入理解真实业务流程就启动开发,导致AI系统与SOP(标准作业流程)存在巨大“一致性缺口”,在应付账款异常处理等场景中,该缺口常超过70%,反而增加团队工作量[19][20][21] - 坑2:什么都扔给LLM:过度依赖大语言模型,系统架构中90%为LLM调用,导致速度慢、成本高且存在幻觉风险;成功系统应85%为确定性代码,仅15%在需要判断的地方使用LLM[22] - 坑3:Agent野蛮生长:员工各自搭建AI工作流,导致一个200人部门可能出现50到100个互不连通、标准不一的Agent,引发集成债务、维护困难和安全风险(如数据泄露)[22][24][25] - 坑4:把AI当项目,不当基础设施:用传统软件项目思路管理AI,但AI依赖的模型、定价、API等要素每季度都在快速变化,导致基于旧有承诺搭建的工作流随时可能失效[26][27] 07 那5%跑通的公司,在做什么 - 深入审计:花费至少4周时间深入业务部门,观察真实操作,绘制SOP与实际流程的每一处落差,期间不编写任何代码[29] - 最小化使用LLM:将工作流拆解至最简,仅在真正需要判断的1-2个步骤使用LLM,其余5到10个步骤使用数据库查询、比较等确定性代码,使系统看起来“几乎无聊”[29] - 统一编排平台:所有部门的Agent运行在同一个编排层上,共享上下文并能相互对话,从根源上杜绝Agent野蛮生长[29] - 组建调优队伍:专门组建团队持续应对模型下架、API变更和业务流程调整,确保系统长期存活[30] 08 一个段子式的细节 - 建立统一的编排平台能产生复利效应:第一个Agent需12周,第二个缩短至9周,第三个仅需4周;没有平台则每个Agent耗时相近,集成债务将吞噬全部AI预算[31] - 大多数AI供应商无法提供此类平台级支持,他们销售的单点解决方案对客户已有的其他系统和个人搭建的Agent一无所知[31] 09 模型实验室自己都默认了这件事 - OpenAI、Anthropic等模型厂商已意识到,仅提供模型或运行时不够,成功需要“模型 + 运行时 + 深入企业厘清需求的团队”[33] - 行业瓶颈始终在于企业流程,有效的解决方案需要结合生产级AI能力与严肃的运营田野工作,即先审计、再拆解、后构建和调优[33] 10 如果从零开始,我会怎么做 - 第1个月:深入业务部门进行审计,输出可指导开发的“数字孪生”流程地图[34] - 第2个月:为高杠杆工作流设计架构,明确每一步使用模型还是确定性逻辑,并选定合适模型(大部分用小而便宜的模型)[34] - 第2.5到4个月:构建并在生产环境软启动,通过人类审批让Agent学习,每日追踪准确率[34] - 第4到6个月:正式上线,在高风险决策中保留人工审核,紧密监控核心指标至少两周[34] - 第6个月:成立持续调优小组,以应对模型市场和内部流程的持续变化[34] - 半年后成果:1个产生实际投资回报率的工作流、1个将后续Agent落地时间从24周缩短至8周的平台、1支保障系统持续运行的调优队伍[35]
过去一年他见了 100 位 C 级高管:95% 的企业 AI 项目失败,都不是模型的错
深思SenseAI·2026-05-03 16:08