非确定性 - 财报，业绩电话会，研报，新闻

非确定性

搜索文档

在参与OpenAI、Google、Amazon的50个AI项目后，他们总结出了大多数AI产品失败的原因

36氪· 2026-02-09 14:57

AI产品开发的现状与核心矛盾 - 借助Coding Agent等工具，构建AI产品的技术门槛和启动成本已急剧降低，将想法变为可交互的原型变得前所未有的容易[1] - 但一个刺眼的矛盾也随之浮现：大多数AI产品仍在走向失败[1] - 当前构建的成本已经非常低，真正昂贵的是设计，是对产品要解决什么痛点的深度思考，对问题本身和产品设计的执着被低估，而单纯追求“快点做出来”被高估[1][36] AI产品构建的挑战与根本差异 - 2024年很多领导者对AI持怀疑态度，认为可能是泡沫，很多所谓“AI用例”仅仅是“在你自己的数据上套一层Snapchat滤镜”[4] - 2025年，很多公司开始真正反思用户体验和业务流程，意识到构建成功的AI产品必须先拆解现有流程再重建，但执行依然非常混乱，领域只有三年左右历史，缺乏成熟方法论[4] - AI产品的生命周期与传统软件截然不同，打破了PM、工程师、数据团队之间传统的分工，需要更紧密、更复杂的协作[4] - 构建AI系统与传统软件的核心差异之一是“非确定性”，AI产品是与一个非确定性的API打交道，用户输入和模型输出都具有高度流动性和不可预测性[5] - 第二个关键差异是代理性与控制权之间的权衡，自治越高，控制越少，而信任必须通过时间和表现来积累[6] 成功的AI产品开发路径与框架 - 正确的做法是刻意从影响范围小、人工控制强的场景开始，逐步理解当前能力边界，再慢慢增加自治性、减少人工干预[6] - 几乎所有成功的案例，都是从极简结构起步，再不断演化而来的[7] - 以客户支持为例，更合理的第一步是让AI为人工客服提供建议，由人类判断建议的有用性，通过反馈回路识别系统盲点并进行修正，当建立起足够信心后，才可以让AI直接向用户展示答案，并逐步增加复杂能力[8] - 从更宏观的角度看，AI系统的核心在于“行为校准”，关键在于避免破坏用户体验和信任，做法是在不影响体验的前提下，逐步减少人工控制，并以不同方式约束自治边界[9] - 例如，医疗保险预授权中，低风险项目可由AI自动审批，而高风险项目则必须保留人工审核，并持续记录人类的决策行为以构建反馈飞轮[9] - 行业提出了“CC/CD（持续校准、持续开发）”框架，其核心是在迭代初期采用“低自治、高控制”的方式，限制系统可做的决策数量，引入人在回路，随着理解加深，再逐步提高自治程度，以逐步建立对系统行为的认知飞轮[25][28][32] - 以客服Agent为例，演进过程通常拆成三个阶段：第一阶段是“路由”，判断工单该被分配到哪个部门；第二阶段是“副驾驶”，Agent根据标准操作流程生成回复草稿由人工修改确认；第三阶段是端到端的自动处理[29][30] 成功构建AI产品的关键要素 - 成功的公司通常具备三个维度：优秀的领导者、健康的文化，以及持续推进的技术能力[14] - 领导者必须愿意承认过去积累的直觉在AI出现后需要被重新学习，需要重建判断力，接受“我的直觉可能不再完全正确”这一事实，很多真正成功的团队是从这种自上而下的转变开始的[14] - 在文化上，需要领导者建立一种“赋能型文化”，强调AI是用来增强个人能力、放大产出的工具，而不是威胁，以形成组织合力[15] - 在技术层面，成功的团队对自身工作流有近乎执念般的理解，清楚哪些环节适合AI，哪些地方必须有人参与，关键不在于迷信技术，而在于为每个问题选择合适的工具[16] - 成功的团队非常清楚自己在和一个非确定性的API打交道，因此会以完全不同的节奏推进开发，迭代得非常快，但前提是不破坏用户体验，同时快速建立反馈飞轮[16] - 如今竞争焦点并不是谁最早上线Agent，而是谁最早构建起持续改进的机制，真正能产生显著ROI通常至少需要四到六个月，即便拥有最好的数据和基础设施[16] 关于评估（Eval）与监控的见解 - 大家陷入了一种错误的二元对立：要么eval能解决一切，要么线上监控能解决一切[17] - eval本质上，是把你对产品的理解、你的价值判断，编码进一组数据集，而生产环境监控则是在产品上线后，通过关键指标和用户行为反馈真实使用情况[17] - 真正的问题不在于“选哪个”，而在于你想解决什么，构建可靠系统，上线前必须有底线测试，上线后需要监控来提示问题，发现新的失败模式后再反过来构建新的eval集，这个循环缺一不可[17] - “eval”这个词在2025年下半年被赋予了沉重的含义，出现了“语义扩散”，不同人看到的是它的不同侧面，但所有资深从业者都会告诉你：一切取决于上下文，不要迷信固定方法论[18][19] - 在Codex团队，采取一种相对平衡的方式：eval是必要的，但同时必须高度重视用户反馈，会通过A/B测试来验证新版本是否还在“做对的事情”，并非常主动地关注社交媒体上的用户反馈[21][22][23] AI产品面临的风险与当前采用阶段 - 一篇研究指出，约**75%** 的企业认为“可靠性”是他们在AI项目中面临的最大问题，这也是他们迟迟不敢将AI产品直接面向用户的重要原因，目前很多AI产品更多集中在提升生产力，而不是彻底替代端到端流程[11] - 提示注入（prompt injection）和越狱（jailbreaking）对AI产品来说几乎是一个“生存级风险”，它可能既没有成熟解法，甚至在理论上也很难被彻底解决[11] - 一旦AI系统真正进入主流应用，安全性会成为一个非常严重的问题，尤其是在面对非确定性API的情况下，几乎无法完全防范[12] - 2025年是AI Agent和企业尝试落地AI的一个高峰期，但整体渗透率依然不高，很多流程还远未被真正改造[12] - 在大多数公司还没走到能充分获益的阶段时，只要在关键节点引入“人在回路”，其实可以规避相当一部分风险[13] 被高估与低估的概念及未来展望 - 多Agent系统概念被严重误解，很多人认为拆分子任务交给不同Agent就能实现“Agent乌托邦”，但现实并非如此，在当前的模型能力和工程范式下，期望Agent“自发协同”往往行不通[35] - 相比预先设计一堆各司其职的Agent，更现实的路径可能是让一个更强的Agent自己完成任务拆解和协调，或者由人来编排多个Agent[36] - Coding Agent仍然被低估，它的真实渗透率依然很低，而潜在价值却极大，2026年会是集中优化这些流程、释放巨大生产力的一段时间[35] - eval是被误解的概念，它当然重要，但“不断切换工具、学习新工具”这件事被高估，真正值得投入精力的是对要解决的业务问题保持极度专注[36] - 非常看好“后台型”或“主动型”Agent，一旦Agent被更深地嵌入真实工作流，获得更丰富的上下文，就能由Agent主动反过来提示用户，这会在2026年成为非常重要的产品方向[38] - 期待2026年的多模态体验，如果能构建真正丰富的多模态交互，将会更接近人类对话的真实复杂度，并能解锁大量此前无法触及的数据资源[38][39] 对AI产品构建者的核心建议 - 对于当下的产品构建者而言，实施成本在未来几年会变得极低，真正稀缺的将是设计能力、判断力和审美品位[40] - 每个人的价值会更多体现在品味、判断，以及那些“只属于你”的东西上，这种能力并不一定来自年龄或多年经验[40] - 真正重要的是主动性和责任感，“忙碌但无效”的工作时代正在结束，必须思考端到端的流程，以及如何创造更大的影响[41] - 坚持和承受“痛苦”的能力同样被严重低估，真正的差别在于是否愿意经历反复试错的过程，这种在实践中积累的经验会沉淀为难以复制的优势[41] - 专注于问题本身，AI只是工具，关键在于是否真正理解自己的工作流，真正的差异化永远来自对用户和问题的深度理解[42]

Artificial Intelligence

Artificial Intelligence

如何应对不同类型的生成式人工智能用户

36氪· 2025-12-19 11:54

核心观点 - 为终端用户设计基于大型语言模型（LLM）的工具时，必须进行严格的用户研究，不能假设用户对AI的认知和态度与开发者一致，否则产品可能失败 [1][7] - 生成式人工智能（如LLM）因其非确定性、不可理解性和日益增强的自主性，从根本上改变了用户与技术互动的方式，对产品设计提出了独特挑战 [8][9][10][11] - 成功的AI产品设计应基于对多样化用户画像的理解，并据此规划产品功能、沟通策略和推广方式，同时尊重用户选择，避免强制使用 [13][14] 用户类别与画像 - **无意识使用者**：不思考AI，认为其与自身生活无关，对底层技术了解有限且缺乏好奇心 [2] - **回避型用户**：对AI整体持负面看法，高度怀疑和不信任，AI产品可能对其品牌关系产生不利影响 [3] - **人工智能爱好者**：对AI抱有很高且可能不切实际的期望，例如希望AI接管所有繁琐工作或完美回答问题 [4] - **知情的人工智能用户**：具有现实视角和较高信息素养，采用“信任但核实”策略，只在AI对特定任务有用时调用它 [5] 用户对LLM的潜在认知偏差 - 用户可能对LLM的工作原理一无所知 [6] - 用户可能没有意识到正在使用的工具已由LLM支撑 [6] - 用户可能因有过强大功能代理的体验而对LLM能力抱有不切实际的期望 [6] - 用户可能对LLM技术抱有不信任或敌意 [6] - 用户对LLM输出内容的信任度可能因过去的特定经验而不同 [6] - 用户可能期待确定性的结果，尽管LLM本质上是非确定性的 [6] 生成式AI的独特挑战 - **非确定性**：相同的输入可能产生不同且意外的输出，打破了传统计算的可重复性契约，可能破坏用户的信任 [9] - **不可理解性（黑匣子）**：神经网络过于复杂，无法完全解释模型为何产生特定输出，必须接受一定程度的不可知性 [10] - **自治权**：推动AI作为半自主智能体运行，在减少监督的同时，因其非确定性和不可理解性可能引发安全焦虑；同时，AI可能在幕后运行而用户毫无察觉 [11] 对产品设计与开发的启示 - **进行严格的用户调研**：了解目标用户群中不同画像的分布，并据此规划产品如何容纳这些用户 [13] - **针对不同用户制定策略**：若有相当一部分回避型用户，需规划信息策略促进采用并考虑缓慢推广；若有很多爱好者用户，需明确工具的能力范围以管理期望 [13] - **以用户研究驱动产品构建**：用户调研应深刻影响AI产品的外观、体验、实际构建和功能，工程任务应基于证据了解产品所需能力及用户可能的行为方式 [13] - **优先考虑用户培训**：必须主动培训用户了解所提供的解决方案，现实地设定期望，并提前回答怀疑受众可能的问题 [13] - **不要强求用户使用**：应尊重可能因批评情绪、安全法规或缺乏兴趣而拒绝使用AI工具的用户群体，强制使用无济于事，维护用户关系和品牌声誉更为重要 [14]