在参与OpenAI、Google、Amazon的50个AI项目后，他们总结出了大多数AI产品失败的原因

AI产品开发的现状与核心矛盾 - 借助Coding Agent等工具，构建AI产品的技术门槛和启动成本已急剧降低，将想法变为可交互的原型变得前所未有的容易[1] - 但一个刺眼的矛盾也随之浮现：大多数AI产品仍在走向失败[1] - 当前构建的成本已经非常低，真正昂贵的是设计，是对产品要解决什么痛点的深度思考，对问题本身和产品设计的执着被低估，而单纯追求“快点做出来”被高估[1][36] AI产品构建的挑战与根本差异 - 2024年很多领导者对AI持怀疑态度，认为可能是泡沫，很多所谓“AI用例”仅仅是“在你自己的数据上套一层Snapchat滤镜”[4] - 2025年，很多公司开始真正反思用户体验和业务流程，意识到构建成功的AI产品必须先拆解现有流程再重建，但执行依然非常混乱，领域只有三年左右历史，缺乏成熟方法论[4] - AI产品的生命周期与传统软件截然不同，打破了PM、工程师、数据团队之间传统的分工，需要更紧密、更复杂的协作[4] - 构建AI系统与传统软件的核心差异之一是“非确定性”，AI产品是与一个非确定性的API打交道，用户输入和模型输出都具有高度流动性和不可预测性[5] - 第二个关键差异是代理性与控制权之间的权衡，自治越高，控制越少，而信任必须通过时间和表现来积累[6] 成功的AI产品开发路径与框架 - 正确的做法是刻意从影响范围小、人工控制强的场景开始，逐步理解当前能力边界，再慢慢增加自治性、减少人工干预[6] - 几乎所有成功的案例，都是从极简结构起步，再不断演化而来的[7] - 以客户支持为例，更合理的第一步是让AI为人工客服提供建议，由人类判断建议的有用性，通过反馈回路识别系统盲点并进行修正，当建立起足够信心后，才可以让AI直接向用户展示答案，并逐步增加复杂能力[8] - 从更宏观的角度看，AI系统的核心在于“行为校准”，关键在于避免破坏用户体验和信任，做法是在不影响体验的前提下，逐步减少人工控制，并以不同方式约束自治边界[9] - 例如，医疗保险预授权中，低风险项目可由AI自动审批，而高风险项目则必须保留人工审核，并持续记录人类的决策行为以构建反馈飞轮[9] - 行业提出了“CC/CD（持续校准、持续开发）”框架，其核心是在迭代初期采用“低自治、高控制”的方式，限制系统可做的决策数量，引入人在回路，随着理解加深，再逐步提高自治程度，以逐步建立对系统行为的认知飞轮[25][28][32] - 以客服Agent为例，演进过程通常拆成三个阶段：第一阶段是“路由”，判断工单该被分配到哪个部门；第二阶段是“副驾驶”，Agent根据标准操作流程生成回复草稿由人工修改确认；第三阶段是端到端的自动处理[29][30] 成功构建AI产品的关键要素 - 成功的公司通常具备三个维度：优秀的领导者、健康的文化，以及持续推进的技术能力[14] - 领导者必须愿意承认过去积累的直觉在AI出现后需要被重新学习，需要重建判断力，接受“我的直觉可能不再完全正确”这一事实，很多真正成功的团队是从这种自上而下的转变开始的[14] - 在文化上，需要领导者建立一种“赋能型文化”，强调AI是用来增强个人能力、放大产出的工具，而不是威胁，以形成组织合力[15] - 在技术层面，成功的团队对自身工作流有近乎执念般的理解，清楚哪些环节适合AI，哪些地方必须有人参与，关键不在于迷信技术，而在于为每个问题选择合适的工具[16] - 成功的团队非常清楚自己在和一个非确定性的API打交道，因此会以完全不同的节奏推进开发，迭代得非常快，但前提是不破坏用户体验，同时快速建立反馈飞轮[16] - 如今竞争焦点并不是谁最早上线Agent，而是谁最早构建起持续改进的机制，真正能产生显著ROI通常至少需要四到六个月，即便拥有最好的数据和基础设施[16] 关于评估（Eval）与监控的见解 - 大家陷入了一种错误的二元对立：要么eval能解决一切，要么线上监控能解决一切[17] - eval本质上，是把你对产品的理解、你的价值判断，编码进一组数据集，而生产环境监控则是在产品上线后，通过关键指标和用户行为反馈真实使用情况[17] - 真正的问题不在于“选哪个”，而在于你想解决什么，构建可靠系统，上线前必须有底线测试，上线后需要监控来提示问题，发现新的失败模式后再反过来构建新的eval集，这个循环缺一不可[17] - “eval”这个词在2025年下半年被赋予了沉重的含义，出现了“语义扩散”，不同人看到的是它的不同侧面，但所有资深从业者都会告诉你：一切取决于上下文，不要迷信固定方法论[18][19] - 在Codex团队，采取一种相对平衡的方式：eval是必要的，但同时必须高度重视用户反馈，会通过A/B测试来验证新版本是否还在“做对的事情”，并非常主动地关注社交媒体上的用户反馈[21][22][23] AI产品面临的风险与当前采用阶段 - 一篇研究指出，约75% 的企业认为“可靠性”是他们在AI项目中面临的最大问题，这也是他们迟迟不敢将AI产品直接面向用户的重要原因，目前很多AI产品更多集中在提升生产力，而不是彻底替代端到端流程[11] - 提示注入（prompt injection）和越狱（jailbreaking）对AI产品来说几乎是一个“生存级风险”，它可能既没有成熟解法，甚至在理论上也很难被彻底解决[11] - 一旦AI系统真正进入主流应用，安全性会成为一个非常严重的问题，尤其是在面对非确定性API的情况下，几乎无法完全防范[12] - 2025年是AI Agent和企业尝试落地AI的一个高峰期，但整体渗透率依然不高，很多流程还远未被真正改造[12] - 在大多数公司还没走到能充分获益的阶段时，只要在关键节点引入“人在回路”，其实可以规避相当一部分风险[13] 被高估与低估的概念及未来展望 - 多Agent系统概念被严重误解，很多人认为拆分子任务交给不同Agent就能实现“Agent乌托邦”，但现实并非如此，在当前的模型能力和工程范式下，期望Agent“自发协同”往往行不通[35] - 相比预先设计一堆各司其职的Agent，更现实的路径可能是让一个更强的Agent自己完成任务拆解和协调，或者由人来编排多个Agent[36] - Coding Agent仍然被低估，它的真实渗透率依然很低，而潜在价值却极大，2026年会是集中优化这些流程、释放巨大生产力的一段时间[35] - eval是被误解的概念，它当然重要，但“不断切换工具、学习新工具”这件事被高估，真正值得投入精力的是对要解决的业务问题保持极度专注[36] - 非常看好“后台型”或“主动型”Agent，一旦Agent被更深地嵌入真实工作流，获得更丰富的上下文，就能由Agent主动反过来提示用户，这会在2026年成为非常重要的产品方向[38] - 期待2026年的多模态体验，如果能构建真正丰富的多模态交互，将会更接近人类对话的真实复杂度，并能解锁大量此前无法触及的数据资源[38][39] 对AI产品构建者的核心建议 - 对于当下的产品构建者而言，实施成本在未来几年会变得极低，真正稀缺的将是设计能力、判断力和审美品位[40] - 每个人的价值会更多体现在品味、判断，以及那些“只属于你”的东西上，这种能力并不一定来自年龄或多年经验[40] - 真正重要的是主动性和责任感，“忙碌但无效”的工作时代正在结束，必须思考端到端的流程，以及如何创造更大的影响[41] - 坚持和承受“痛苦”的能力同样被严重低估，真正的差别在于是否愿意经历反复试错的过程，这种在实践中积累的经验会沉淀为难以复制的优势[41] - 专注于问题本身，AI只是工具，关键在于是否真正理解自己的工作流，真正的差异化永远来自对用户和问题的深度理解[42]