AI产品开发的现状与核心矛盾 - 借助Coding Agent等工具,构建AI产品的技术门槛和启动成本已急剧降低,将想法变为可交互的原型变得前所未有的容易[1] - 但一个刺眼的矛盾也随之浮现:大多数AI产品仍在走向失败[1] - 当前构建的成本已经非常低,真正昂贵的是设计,是对产品要解决什么痛点的深度思考,对问题本身和产品设计的执着被低估,而单纯追求“快点做出来”被高估[1][36] AI产品构建的挑战与根本差异 - 2024年很多领导者对AI持怀疑态度,认为可能是泡沫,很多所谓“AI用例”仅仅是“在你自己的数据上套一层Snapchat滤镜”[4] - 2025年,很多公司开始真正反思用户体验和业务流程,意识到构建成功的AI产品必须先拆解现有流程再重建,但执行依然非常混乱,领域只有三年左右历史,缺乏成熟方法论[4] - AI产品的生命周期与传统软件截然不同,打破了PM、工程师、数据团队之间传统的分工,需要更紧密、更复杂的协作[4] - 构建AI系统与传统软件的核心差异之一是“非确定性”,AI产品是与一个非确定性的API打交道,用户输入和模型输出都具有高度流动性和不可预测性[5] - 第二个关键差异是代理性与控制权之间的权衡,自治越高,控制越少,而信任必须通过时间和表现来积累[6] 成功的AI产品开发路径与框架 - 正确的做法是刻意从影响范围小、人工控制强的场景开始,逐步理解当前能力边界,再慢慢增加自治性、减少人工干预[6] - 几乎所有成功的案例,都是从极简结构起步,再不断演化而来的[7] - 以客户支持为例,更合理的第一步是让AI为人工客服提供建议,由人类判断建议的有用性,通过反馈回路识别系统盲点并进行修正,当建立起足够信心后,才可以让AI直接向用户展示答案,并逐步增加复杂能力[8] - 从更宏观的角度看,AI系统的核心在于“行为校准”,关键在于避免破坏用户体验和信任,做法是在不影响体验的前提下,逐步减少人工控制,并以不同方式约束自治边界[9] - 例如,医疗保险预授权中,低风险项目可由AI自动审批,而高风险项目则必须保留人工审核,并持续记录人类的决策行为以构建反馈飞轮[9] - 行业提出了“CC/CD(持续校准、持续开发)”框架,其核心是在迭代初期采用“低自治、高控制”的方式,限制系统可做的决策数量,引入人在回路,随着理解加深,再逐步提高自治程度,以逐步建立对系统行为的认知飞轮[25][28][32] - 以客服Agent为例,演进过程通常拆成三个阶段:第一阶段是“路由”,判断工单该被分配到哪个部门;第二阶段是“副驾驶”,Agent根据标准操作流程生成回复草稿由人工修改确认;第三阶段是端到端的自动处理[29][30] 成功构建AI产品的关键要素 - 成功的公司通常具备三个维度:优秀的领导者、健康的文化,以及持续推进的技术能力[14] - 领导者必须愿意承认过去积累的直觉在AI出现后需要被重新学习,需要重建判断力,接受“我的直觉可能不再完全正确”这一事实,很多真正成功的团队是从这种自上而下的转变开始的[14] - 在文化上,需要领导者建立一种“赋能型文化”,强调AI是用来增强个人能力、放大产出的工具,而不是威胁,以形成组织合力[15] - 在技术层面,成功的团队对自身工作流有近乎执念般的理解,清楚哪些环节适合AI,哪些地方必须有人参与,关键不在于迷信技术,而在于为每个问题选择合适的工具[16] - 成功的团队非常清楚自己在和一个非确定性的API打交道,因此会以完全不同的节奏推进开发,迭代得非常快,但前提是不破坏用户体验,同时快速建立反馈飞轮[16] - 如今竞争焦点并不是谁最早上线Agent,而是谁最早构建起持续改进的机制,真正能产生显著ROI通常至少需要四到六个月,即便拥有最好的数据和基础设施[16] 关于评估(Eval)与监控的见解 - 大家陷入了一种错误的二元对立:要么eval能解决一切,要么线上监控能解决一切[17] - eval本质上,是把你对产品的理解、你的价值判断,编码进一组数据集,而生产环境监控则是在产品上线后,通过关键指标和用户行为反馈真实使用情况[17] - 真正的问题不在于“选哪个”,而在于你想解决什么,构建可靠系统,上线前必须有底线测试,上线后需要监控来提示问题,发现新的失败模式后再反过来构建新的eval集,这个循环缺一不可[17] - “eval”这个词在2025年下半年被赋予了沉重的含义,出现了“语义扩散”,不同人看到的是它的不同侧面,但所有资深从业者都会告诉你:一切取决于上下文,不要迷信固定方法论[18][19] - 在Codex团队,采取一种相对平衡的方式:eval是必要的,但同时必须高度重视用户反馈,会通过A/B测试来验证新版本是否还在“做对的事情”,并非常主动地关注社交媒体上的用户反馈[21][22][23] AI产品面临的风险与当前采用阶段 - 一篇研究指出,约75% 的企业认为“可靠性”是他们在AI项目中面临的最大问题,这也是他们迟迟不敢将AI产品直接面向用户的重要原因,目前很多AI产品更多集中在提升生产力,而不是彻底替代端到端流程[11] - 提示注入(prompt injection)和越狱(jailbreaking)对AI产品来说几乎是一个“生存级风险”,它可能既没有成熟解法,甚至在理论上也很难被彻底解决[11] - 一旦AI系统真正进入主流应用,安全性会成为一个非常严重的问题,尤其是在面对非确定性API的情况下,几乎无法完全防范[12] - 2025年是AI Agent和企业尝试落地AI的一个高峰期,但整体渗透率依然不高,很多流程还远未被真正改造[12] - 在大多数公司还没走到能充分获益的阶段时,只要在关键节点引入“人在回路”,其实可以规避相当一部分风险[13] 被高估与低估的概念及未来展望 - 多Agent系统概念被严重误解,很多人认为拆分子任务交给不同Agent就能实现“Agent乌托邦”,但现实并非如此,在当前的模型能力和工程范式下,期望Agent“自发协同”往往行不通[35] - 相比预先设计一堆各司其职的Agent,更现实的路径可能是让一个更强的Agent自己完成任务拆解和协调,或者由人来编排多个Agent[36] - Coding Agent仍然被低估,它的真实渗透率依然很低,而潜在价值却极大,2026年会是集中优化这些流程、释放巨大生产力的一段时间[35] - eval是被误解的概念,它当然重要,但“不断切换工具、学习新工具”这件事被高估,真正值得投入精力的是对要解决的业务问题保持极度专注[36] - 非常看好“后台型”或“主动型”Agent,一旦Agent被更深地嵌入真实工作流,获得更丰富的上下文,就能由Agent主动反过来提示用户,这会在2026年成为非常重要的产品方向[38] - 期待2026年的多模态体验,如果能构建真正丰富的多模态交互,将会更接近人类对话的真实复杂度,并能解锁大量此前无法触及的数据资源[38][39] 对AI产品构建者的核心建议 - 对于当下的产品构建者而言,实施成本在未来几年会变得极低,真正稀缺的将是设计能力、判断力和审美品位[40] - 每个人的价值会更多体现在品味、判断,以及那些“只属于你”的东西上,这种能力并不一定来自年龄或多年经验[40] - 真正重要的是主动性和责任感,“忙碌但无效”的工作时代正在结束,必须思考端到端的流程,以及如何创造更大的影响[41] - 坚持和承受“痛苦”的能力同样被严重低估,真正的差别在于是否愿意经历反复试错的过程,这种在实践中积累的经验会沉淀为难以复制的优势[41] - 专注于问题本身,AI只是工具,关键在于是否真正理解自己的工作流,真正的差异化永远来自对用户和问题的深度理解[42]
在参与OpenAI、Google、Amazon的50个AI项目后,他们总结出了大多数AI产品失败的原因