Workflow
非确定性
icon
搜索文档
在参与OpenAI、Google、Amazon的50个AI项目后,他们总结出了大多数AI产品失败的原因
36氪· 2026-02-09 14:57
AI产品开发的现状与核心矛盾 - 借助Coding Agent等工具,构建AI产品的技术门槛和启动成本已急剧降低,将想法变为可交互的原型变得前所未有的容易[1] - 但一个刺眼的矛盾也随之浮现:大多数AI产品仍在走向失败[1] - 当前构建的成本已经非常低,真正昂贵的是设计,是对产品要解决什么痛点的深度思考,对问题本身和产品设计的执着被低估,而单纯追求“快点做出来”被高估[1][36] AI产品构建的挑战与根本差异 - 2024年很多领导者对AI持怀疑态度,认为可能是泡沫,很多所谓“AI用例”仅仅是“在你自己的数据上套一层Snapchat滤镜”[4] - 2025年,很多公司开始真正反思用户体验和业务流程,意识到构建成功的AI产品必须先拆解现有流程再重建,但执行依然非常混乱,领域只有三年左右历史,缺乏成熟方法论[4] - AI产品的生命周期与传统软件截然不同,打破了PM、工程师、数据团队之间传统的分工,需要更紧密、更复杂的协作[4] - 构建AI系统与传统软件的核心差异之一是“非确定性”,AI产品是与一个非确定性的API打交道,用户输入和模型输出都具有高度流动性和不可预测性[5] - 第二个关键差异是代理性与控制权之间的权衡,自治越高,控制越少,而信任必须通过时间和表现来积累[6] 成功的AI产品开发路径与框架 - 正确的做法是刻意从影响范围小、人工控制强的场景开始,逐步理解当前能力边界,再慢慢增加自治性、减少人工干预[6] - 几乎所有成功的案例,都是从极简结构起步,再不断演化而来的[7] - 以客户支持为例,更合理的第一步是让AI为人工客服提供建议,由人类判断建议的有用性,通过反馈回路识别系统盲点并进行修正,当建立起足够信心后,才可以让AI直接向用户展示答案,并逐步增加复杂能力[8] - 从更宏观的角度看,AI系统的核心在于“行为校准”,关键在于避免破坏用户体验和信任,做法是在不影响体验的前提下,逐步减少人工控制,并以不同方式约束自治边界[9] - 例如,医疗保险预授权中,低风险项目可由AI自动审批,而高风险项目则必须保留人工审核,并持续记录人类的决策行为以构建反馈飞轮[9] - 行业提出了“CC/CD(持续校准、持续开发)”框架,其核心是在迭代初期采用“低自治、高控制”的方式,限制系统可做的决策数量,引入人在回路,随着理解加深,再逐步提高自治程度,以逐步建立对系统行为的认知飞轮[25][28][32] - 以客服Agent为例,演进过程通常拆成三个阶段:第一阶段是“路由”,判断工单该被分配到哪个部门;第二阶段是“副驾驶”,Agent根据标准操作流程生成回复草稿由人工修改确认;第三阶段是端到端的自动处理[29][30] 成功构建AI产品的关键要素 - 成功的公司通常具备三个维度:优秀的领导者、健康的文化,以及持续推进的技术能力[14] - 领导者必须愿意承认过去积累的直觉在AI出现后需要被重新学习,需要重建判断力,接受“我的直觉可能不再完全正确”这一事实,很多真正成功的团队是从这种自上而下的转变开始的[14] - 在文化上,需要领导者建立一种“赋能型文化”,强调AI是用来增强个人能力、放大产出的工具,而不是威胁,以形成组织合力[15] - 在技术层面,成功的团队对自身工作流有近乎执念般的理解,清楚哪些环节适合AI,哪些地方必须有人参与,关键不在于迷信技术,而在于为每个问题选择合适的工具[16] - 成功的团队非常清楚自己在和一个非确定性的API打交道,因此会以完全不同的节奏推进开发,迭代得非常快,但前提是不破坏用户体验,同时快速建立反馈飞轮[16] - 如今竞争焦点并不是谁最早上线Agent,而是谁最早构建起持续改进的机制,真正能产生显著ROI通常至少需要四到六个月,即便拥有最好的数据和基础设施[16] 关于评估(Eval)与监控的见解 - 大家陷入了一种错误的二元对立:要么eval能解决一切,要么线上监控能解决一切[17] - eval本质上,是把你对产品的理解、你的价值判断,编码进一组数据集,而生产环境监控则是在产品上线后,通过关键指标和用户行为反馈真实使用情况[17] - 真正的问题不在于“选哪个”,而在于你想解决什么,构建可靠系统,上线前必须有底线测试,上线后需要监控来提示问题,发现新的失败模式后再反过来构建新的eval集,这个循环缺一不可[17] - “eval”这个词在2025年下半年被赋予了沉重的含义,出现了“语义扩散”,不同人看到的是它的不同侧面,但所有资深从业者都会告诉你:一切取决于上下文,不要迷信固定方法论[18][19] - 在Codex团队,采取一种相对平衡的方式:eval是必要的,但同时必须高度重视用户反馈,会通过A/B测试来验证新版本是否还在“做对的事情”,并非常主动地关注社交媒体上的用户反馈[21][22][23] AI产品面临的风险与当前采用阶段 - 一篇研究指出,约**75%** 的企业认为“可靠性”是他们在AI项目中面临的最大问题,这也是他们迟迟不敢将AI产品直接面向用户的重要原因,目前很多AI产品更多集中在提升生产力,而不是彻底替代端到端流程[11] - 提示注入(prompt injection)和越狱(jailbreaking)对AI产品来说几乎是一个“生存级风险”,它可能既没有成熟解法,甚至在理论上也很难被彻底解决[11] - 一旦AI系统真正进入主流应用,安全性会成为一个非常严重的问题,尤其是在面对非确定性API的情况下,几乎无法完全防范[12] - 2025年是AI Agent和企业尝试落地AI的一个高峰期,但整体渗透率依然不高,很多流程还远未被真正改造[12] - 在大多数公司还没走到能充分获益的阶段时,只要在关键节点引入“人在回路”,其实可以规避相当一部分风险[13] 被高估与低估的概念及未来展望 - 多Agent系统概念被严重误解,很多人认为拆分子任务交给不同Agent就能实现“Agent乌托邦”,但现实并非如此,在当前的模型能力和工程范式下,期望Agent“自发协同”往往行不通[35] - 相比预先设计一堆各司其职的Agent,更现实的路径可能是让一个更强的Agent自己完成任务拆解和协调,或者由人来编排多个Agent[36] - Coding Agent仍然被低估,它的真实渗透率依然很低,而潜在价值却极大,2026年会是集中优化这些流程、释放巨大生产力的一段时间[35] - eval是被误解的概念,它当然重要,但“不断切换工具、学习新工具”这件事被高估,真正值得投入精力的是对要解决的业务问题保持极度专注[36] - 非常看好“后台型”或“主动型”Agent,一旦Agent被更深地嵌入真实工作流,获得更丰富的上下文,就能由Agent主动反过来提示用户,这会在2026年成为非常重要的产品方向[38] - 期待2026年的多模态体验,如果能构建真正丰富的多模态交互,将会更接近人类对话的真实复杂度,并能解锁大量此前无法触及的数据资源[38][39] 对AI产品构建者的核心建议 - 对于当下的产品构建者而言,实施成本在未来几年会变得极低,真正稀缺的将是设计能力、判断力和审美品位[40] - 每个人的价值会更多体现在品味、判断,以及那些“只属于你”的东西上,这种能力并不一定来自年龄或多年经验[40] - 真正重要的是主动性和责任感,“忙碌但无效”的工作时代正在结束,必须思考端到端的流程,以及如何创造更大的影响[41] - 坚持和承受“痛苦”的能力同样被严重低估,真正的差别在于是否愿意经历反复试错的过程,这种在实践中积累的经验会沉淀为难以复制的优势[41] - 专注于问题本身,AI只是工具,关键在于是否真正理解自己的工作流,真正的差异化永远来自对用户和问题的深度理解[42]
如何应对不同类型的生成式人工智能用户
36氪· 2025-12-19 11:54
核心观点 - 为终端用户设计基于大型语言模型(LLM)的工具时,必须进行严格的用户研究,不能假设用户对AI的认知和态度与开发者一致,否则产品可能失败 [1][7] - 生成式人工智能(如LLM)因其非确定性、不可理解性和日益增强的自主性,从根本上改变了用户与技术互动的方式,对产品设计提出了独特挑战 [8][9][10][11] - 成功的AI产品设计应基于对多样化用户画像的理解,并据此规划产品功能、沟通策略和推广方式,同时尊重用户选择,避免强制使用 [13][14] 用户类别与画像 - **无意识使用者**:不思考AI,认为其与自身生活无关,对底层技术了解有限且缺乏好奇心 [2] - **回避型用户**:对AI整体持负面看法,高度怀疑和不信任,AI产品可能对其品牌关系产生不利影响 [3] - **人工智能爱好者**:对AI抱有很高且可能不切实际的期望,例如希望AI接管所有繁琐工作或完美回答问题 [4] - **知情的人工智能用户**:具有现实视角和较高信息素养,采用“信任但核实”策略,只在AI对特定任务有用时调用它 [5] 用户对LLM的潜在认知偏差 - 用户可能对LLM的工作原理一无所知 [6] - 用户可能没有意识到正在使用的工具已由LLM支撑 [6] - 用户可能因有过强大功能代理的体验而对LLM能力抱有不切实际的期望 [6] - 用户可能对LLM技术抱有不信任或敌意 [6] - 用户对LLM输出内容的信任度可能因过去的特定经验而不同 [6] - 用户可能期待确定性的结果,尽管LLM本质上是非确定性的 [6] 生成式AI的独特挑战 - **非确定性**:相同的输入可能产生不同且意外的输出,打破了传统计算的可重复性契约,可能破坏用户的信任 [9] - **不可理解性(黑匣子)**:神经网络过于复杂,无法完全解释模型为何产生特定输出,必须接受一定程度的不可知性 [10] - **自治权**:推动AI作为半自主智能体运行,在减少监督的同时,因其非确定性和不可理解性可能引发安全焦虑;同时,AI可能在幕后运行而用户毫无察觉 [11] 对产品设计与开发的启示 - **进行严格的用户调研**:了解目标用户群中不同画像的分布,并据此规划产品如何容纳这些用户 [13] - **针对不同用户制定策略**:若有相当一部分回避型用户,需规划信息策略促进采用并考虑缓慢推广;若有很多爱好者用户,需明确工具的能力范围以管理期望 [13] - **以用户研究驱动产品构建**:用户调研应深刻影响AI产品的外观、体验、实际构建和功能,工程任务应基于证据了解产品所需能力及用户可能的行为方式 [13] - **优先考虑用户培训**:必须主动培训用户了解所提供的解决方案,现实地设定期望,并提前回答怀疑受众可能的问题 [13] - **不要强求用户使用**:应尊重可能因批评情绪、安全法规或缺乏兴趣而拒绝使用AI工具的用户群体,强制使用无济于事,维护用户关系和品牌声誉更为重要 [14]