上下文工程
搜索文档
为什么95%的智能体都部署失败了?这个圆桌讨论出了一些常见陷阱
机器之心· 2025-10-28 17:37
选自Motive Notes 作者: Oana Olteanu 机器之心编译 「95% 的 AI 智能体在生产环境中部署时都失败了。」在硅谷近期的一个圆桌论坛中,有位嘉宾给出了这样一个数字。 这个论坛由 EntreConnect(一个企业家、投资者社区)组织,来自 Uber、WisdomAI、EvenUp 和 Datastrato 的工程师及 ML 负责人参与了讨论。他们认为, 多数 AI 智能体之所以部署时失败,不是因为模型不够智能,而是因为围绕它们的基础框架、上下文工程、安全性和记忆设计尚未成熟 。 EntreConnect 组织的论坛 「 Beyond the Prompt: AI Inference x Context Engineering with Uber, Wisdom AI, EvenUp and Datastrato 」 他们进一步指出,真正的差距在于上下文工程,「 大多数创始人以为自己在构建 AI 产品,实际上他们在构建的是上下文选择系统。 」成功的团队不是在优化提 示词,而是在构建语义层、元数据过滤、特征选择和上下文可观察性。正如论坛上的一个比喻所说:「 基础模型是土壤,上下文才是种子 ...
微调已死!「共识机制」实现提示词自我进化,性能飙升
量子位· 2025-10-28 09:18
西湖大学MAPLE实验室 投稿 量子位 | 公众号 QbitAI 当前,人工智能领域正经历一场由「模型微调」向「上下文工程」的范式转变。 通过在输入中引入更明确的指令和更丰富详实的知识,「上下文工程」既无需投入高昂的训练成本,亦不依赖开源模型权重参数,同时能够 为用户和开发者提供更强的可解释性,正逐渐成为构建高性能、可扩展且具备自我改进能力的 AI 系统的核心范式。 正因如此,「微调已死」成为了AI领域近期广泛认可的热门话题。 对于这一缺陷,多提示词的相互协作是一个很自然的解决方案——单个提示词可能无法处理特定输入,但其他提示词可以弥补这一方面的性 能损失。 如果能基于多个提示词生成的回答提取他们所达成的「共识」,AI系统就更有可能输出正确答案。 基于这一思想,西湖大学MAPLE实验室齐国君教授团队提出了基于「共识机制」的提示词组进化算法C-Evolve。 与既往仅优化单一提示词不同,C-Evolve旨在通过进化算法生成一组提示词。该组提示词在对输入信息进行独立处理后,通过提取所有输 出结果的共识,以实现最优任务性能。 为实现这一目标,团队创新性地提出了「共识表决得分」这一进化指标,用于评估单个提示词在成组工 ...
长上下文窗口、Agent崛起,RAG已死?
机器之心· 2025-10-19 17:17
RAG技术演进与行业观点 - 行业出现“RAG已死”的论调,Chroma公司CEO Jeff Huber主张以“上下文工程”框架取代对RAG术语的狭义依赖 [1][2] - RAG自2022年以来成为解决LLM输入长度限制(如GPT-3.5的4K tokens)的行业标准解决方案,其核心逻辑类似于搜索引擎 [3][4] - 长上下文窗口的崛起和Agent能力的进化正在动摇RAG的核心地位,引发其是否过时的讨论 [5][6] RAG的进化:智能体检索 - LlamaIndex提出RAG正在演进为“智能体检索”,AI智能体成为更强大的RAG架构核心,超越了早期“朴素的区块检索”阶段 [7][8] - 技术演进分为四个阶段:从基础的Top-k检索,到引入轻量级agent的自动路由模式,再扩展到多个知识库的复合检索API,最终构建完全由agent驱动的双层智能系统 [9][10][11][13][15][17][18][19] - 高级检索服务通过分层、智能的能力,成为高级AI智能体不可或缺的“知识骨干”,简单的RAG已经过时 [21] RAG作为工程学科的深化 - 行业专家认为RAG正进化为构建可靠、高效AI应用的核心工程学科,其本质(为LLM提供外部知识)是永恒需求 [22][23][24] - 需要升级评估范式,传统搜索引擎基准(如BEIR)与RAG目标不符,新基准FreshStack更注重覆盖率、多样性和相关性等真实性能指标 [26][27][28][29][33] - 新一代检索模型具备推理能力(如Promptriever)和采用无损压缩技术(如延迟交互模型ColBERT),小模型(150M参数)在特定任务上可超越大模型(7B参数) [34][35][39] 对RAG架构的批判与替代方案 - 批评者指出RAG架构存在“原罪”:切分导致上下文割裂、向量搜索在专业领域失灵、系统复杂性和延迟问题突出 [37][38][41][48] - 智能体(Agent)和长上下文窗口(如Claude Sonnet 4达200K、Gemini 2.5达1M、Grok 4-fast达2M tokens)被视为更优替代方案,采用“调查”而非“检索”范式 [42][43][44][45][49] - 在新范式下,RAG被“降级”为Agent工具箱中的一个组件,与代码解释器、API调用等工具并列,场景需求决定架构选择 [47][50][51][52][54] 行业共识与未来展望 - 行业共识是初级的、朴素的RAG(Naive RAG)已无法满足复杂需求,但其核心思想——为LLM提供外部知识——是永恒的 [50][51] - 未来技术图景是多元化融合:Agent驱动的工程化RAG适用于海量数据初筛,而“长上下文窗口 + Agent调查”范式在深度分析场景具优势 [52][54] - 开发者需理解不同技术范式优劣,根据具体应用场景灵活组合,构建最高效可靠的解决方案 [52]
腾讯研究院AI速递 20251017
腾讯研究院· 2025-10-17 07:06
谷歌视频生成模型Veo 3.1 - 谷歌发布视频生成模型Veo 3.1,具备更强叙事与音频控制、首尾帧与多图参考等精控功能,并接入Gemini API与Vertex AI [1] - 模型支持720p或1080p分辨率24fps视频,原生时长4-8秒,使用Extend功能最长可扩展至148秒,可合成多人物场景并实现音画同步 [1] - 用户已在Flow中生成超过2.75亿个视频,但成片质感较Veo 3进步有限,基础物理表现有所改善但人物表演与复杂调度仍存在问题 [1] Anthropic轻量模型Claude Haiku 4.5 - Anthropic发布轻量级模型Claude Haiku 4.5,编码性能可与Claude Sonnet 4相媲美,成本仅为其三分之一(每百万输入token 1美元,输出5美元),推理速度提升一倍多 [2] - 在计算机使用基准OSWorld上得分50.7%超越Sonnet 4的42.2%,数学推理测试中借助Python工具成绩高达96.3%远超Sonnet 4的70.5% [2] - 模型主打实时低延迟任务场景如聊天助手、客服、协同编程,通过严格安全性评估,偏差行为发生率显著低于其他Claude模型 [2] 阿里通义千问记忆功能 - 阿里通义千问正式上线Qwen Chat Memory功能,使AI能够记录并理解用户在过去对话中的重要信息,包括个人偏好、兴趣方向或特定任务背景 [3] - 该功能可跨越多轮甚至多天对话保留个性化认知,是AI助手向长期陪伴型智能体迈出的关键一步 [3] - 所有记忆内容可由用户查看、管理和删除,用户拥有完整控制权,首先在网页版Qwen Chat上线,未来推广至更多终端 [3] 字节跳动语音模型升级 - 火山引擎升级豆包语音合成模型2.0和声音复刻模型2.0,通过Query-Response能力实现情境理解与语气把控,可通过细节描述精准生成对应情感 [4] - 语音合成2.0提供默认模式、语音指令和引入上文三种模式,可控制整段情绪基调、方言类型、语速音调等,模型能自动理解上下文情绪连贯生成 [4] - 声音复刻2.0可精准复现动漫人物和真人音色语速情绪,对公式朗读测试准确率接近90%,在教育场景专项优化 [4] 谷歌与耶鲁大学AI抗癌研究 - 谷歌与耶鲁大学联合发布270亿参数大模型Cell2Sentence-Scale(C2S-Scale),基于Gemma模型构建,提出并验证让肿瘤对免疫系统更易被识别的全新抗癌假设 [5][6] - 模型通过双环境虚拟筛选流程对4000多种药物进行模拟,发现激酶CK2抑制剂silmitasertib仅在免疫信号活跃环境中显著增强抗原呈递,该预测已在体外实验中多次验证 [6] - 研究展示AI模型生成原创科学假设的潜力,有望打开人类抗癌新途径,模型及代码已在Hugging Face和GitHub全面开放 [6] AI模型训练与工程挑战 - Anthropic预训练团队负责人强调预训练核心是推动损失函数下降,如何平衡预训练和后训练、各自作用叠加还是互补仍在早期探索阶段 [7] - 当前AI研究最大瓶颈是计算资源受限而非算法突破,真正的挑战在于如何有效利用算力并解决规模扩展中的工程难题 [7] - 对齐问题核心是让模型分享人类目标,预训练与后训练各有优势,后训练迭代快适合调整模型,某些对齐可融入预训练增强鲁棒性和智能性 [7] 上下文工程技术 - LangChain创始工程师与Manus联合创始人探讨上下文工程,强调AI Agents执行复杂长期任务时上下文窗口会因大量工具调用急剧膨胀导致性能下降 [8] - 有效的上下文工程通过卸载、精简、检索、隔离和缓存等技术,将恰到好处的信息填入上下文窗口,Manus设计了基于多层阈值的自动化流程协同使用压缩和总结 [8] - 核心设计哲学是避免上下文过度工程化,最大性能飞跃来自简化架构和信任模型,优先选择上下文工程而非过早模型专业化 [8] AI在开发领域的应用现状 - Google Cloud DORA 2025报告显示90%开发者已在日常工作中使用AI,每天中位数使用时长2小时约占工作日四分之一,但只有24%表示高度信任AI输出 [9] - AI不是单向效率药丸而是放大镜,在文化健康协作顺畅团队中作为加速器提升效率,但在环境存在问题的团队会放大裂缝导致交付更加不稳定 [9] - 报告首次提出七种典型团队人设和DORA AI能力模型,包括用户导向、版本控制、数据可用性等七项关键能力 [9] NVIDIA发展历程与AI战略 - 黄仁勋回顾1993年红杉100万美元投资NVIDIA,三十年后成长为超过1万亿美元市值实现100万倍回报,强调从第一性原理推演未来是突破关键 [10] - CUDA的诞生让GPU从图形设备变成通用加速平台,2012年AlexNet在ImageNet竞赛获胜成为转折点,NVIDIA为神经网络开发CUDNN库使模型训练速度成倍提升 [11] - AI工厂核心是系统整合而非芯片性能,从建筑供电到软件栈提供完整算力生产线,主权AI成为新一轮国家竞争核心 [11]
从技术狂欢到企业落地,智能编程的全球破局战
AI前线· 2025-10-13 21:54
行业现状与趋势 - 智能编程是AI应用领域增长最为迅猛的赛道之一 [2] - 全球已有60%的开发者在使用AI构建工具,行业渗透速度远超预期 [3][10] - 智能编程正从单一的代码补全功能阶段,加速迈向AI自主开发时代,重塑软件开发的底层逻辑 [3][5] - 智能编程的未来将成为数字世界与物理世界的连接器,随着物理世界智能化程度提升,设备控制、场景联动等需求将依赖大量代码生成,形成正向循环 [10] 技术能力与突破 - 在中简单任务(如基础代码补全、简单接口开发)中,国内模型的表现已与海外模型相近,阿里开源的通义千问AI编程大模型Qwen3-Coder编程能力登顶全球开源模型阵营,并超越GPT-4.1等闭源模型,比肩全球最强的编程模型Claude 4 [3][16] - 技术发展围绕解决真实软件构建痛点展开,通过三大核心能力突破实现开发流程系统性重构:面向真实软件构建的场景深耕、Spec驱动下的生产力质变、持续增强上下文工程 [5][6][7][9] - 阿里云的大语言模型已支持7小时不间断独立工作,使生产力提升10倍,开发者可同时委派8-10个任务 [7][8] - 上下文工程被定义为当前驾驭大语言模型的最重要能力,阿里云通过向量化检索+文件解锁的混合策略实现全球领先,能快速关联历史代码与业务规则 [9] 产品布局与市场策略 - 阿里云针对国内外市场需求差异,通过通义灵码、Qoder等产品进行破局 [3] - 通义灵码聚焦国内市场,强调合规适配与企业级服务,已服务超百万月活开发者,并服务了90%的上市商业银行和超过70%的中国车企 [19][21] - Qoder面向全球市场,定位为创新验证平台,上架5天就有超10万开发者使用 [20] - 公司通过全球创新→本土适配→生态落地的迭代闭环,以及工具+平台+服务的生态协同策略应对竞争 [17][18][19][20] 企业落地实践与成效 - 企业级落地面临复杂场景适配难、安全合规风险高、知识传承与资产复用不足等挑战 [10][11][14] - 中华财险代码生成占比达到41.26%,生成了257万行代码,代码生成占比从最初的28%提升至46%,平均每百名开发者可提升约6人的生产力 [12] - 海信集团开发人员中日均活跃用户占比78%,代码生成占比约48%,代码采纳率超过30%,整体提效成果远超预期 [13] - 企业在推广智能编程时采用分场景制定目标的方式,在新系统开发中提效幅度可达50%以上,但在维护老系统时提效幅度为10%~20% [11] 行业竞争与发展路径 - 国内工具厂商正通过模型追赶+数据优势+生态协同的路径实现突围 [17] - 国内中小模型在代码补全、语法纠错等专项任务上已达到全球SOTA水平 [17] - 智能编程领域的全球竞争已进入白热化阶段,企业对智能编程的需求已从提效工具升级为生产力伙伴 [16][21] - 行业核心演进路径是从辅助编程到系统编程,再到AI自主编程,终极目标是让代码生产不再成为创新的障碍,而是成为企业发展的加速器 [7][22]
硅谷一线创业者内部研讨:为什么只有 5%的 AI Agent 落地成功,他们做对了什么?
Founder Park· 2025-10-13 18:57
文章核心观点 - AI Agent在生产环境的部署失败率高达95%,主要瓶颈并非模型智能度,而是上下文工程、安全性、记忆设计等基础设施的缺失[2][3] - 成功的AI产品开发核心在于构建复杂而强大的“上下文选择系统”,而非简单的提示工程[3] - 行业即将迎来一波专注于记忆工具包、编排层、上下文可观测性等基础设施工具的浪潮[49] 上下文工程 - 精细调整模型的需求非常少见,设计完善的检索增强生成系统通常已能满足需求,但大多数现有系统设计过于初级[5] - 先进的上下文工程是为大语言模型量身打造的特征工程,需实现可版本化、可审计、可测试[9][10] - 应采用语义与元数据双层架构,统一处理杂乱输入格式,确保检索到的是高度相关的结构化知识,而非仅是相似内容[11][12] - 文本转SQL系统在生产环境部署挑战巨大,成功团队会构建业务术语表、带约束的查询模板、验证层及反馈循环作为支撑[13][20] 安全与信任机制 - 安全性、溯源能力与权限控制是阻碍系统部署的关键障碍,而非可有可无的功能[14] - 系统必须支持基于角色的行级别访问控制,即使问题相同,也需为不同权限用户提供定制化输出[16][21] - 信任的核心在于系统能否表现出一致、可解释、可审计的行为,而非原始技术能力[18] - 5%成功部署的AI Agent共同点是采用“人在回路”设计,将AI定位为辅助工具,并构建反馈循环[18] 记忆功能设计 - 记忆功能不是简单存储,而是涉及用户体验、隐私和系统整体架构的设计决策[22] - 记忆应分为用户级、团队级和组织级三个层级,优秀团队会将其抽象为独立的上下文层与行为层,实现版本化与自由组合[23][28] - 记忆能提升用户体验与Agent流畅度,但过度个性化会触及隐私红线,共享记忆若范围不当会破坏访问控制[30][34] - 当前技术栈缺失安全、可移植、由用户掌控的内存层,这是一个重要的创业机会点[30][42] 多模型推理与编排 - 模型编排是一种新兴设计范式,企业根据任务复杂度、延迟要求、成本敏感度等因素设计智能路由逻辑[31][32] - 典型模式包括:简单查询调用本地模型、结构化查询调用领域特定语言、复杂分析调用前沿模型,并采用双模型冗余设计作为回退[35][36] - 模型选择本身可通过追踪“哪些查询在哪些模型上表现更好”来持续学习优化,路由策略需自适应而非手动调整[37] 交互界面设计 - 并非所有任务都需要聊天机器人,自然语言交互的价值在于极大降低复杂工具的使用门槛[39] - 理想应用场景包括处理情绪化任务和进行探索性、开放式的查询[40][46] - 核心是理解用户选择自然语言的根本原因来设计交互,而非将所有交互塞进聊天框架,并应提供GUI控件支持后续精细化调整[40] 未来机会与待解问题 - 重要创业机会点包括:上下文可观测性、可组合记忆、领域感知的领域特定语言[41][42][44] - 善用延迟可创造价值体验,深度分析即使耗时10秒,只要展示思考过程并给出有效答案,用户也能接受[45] - 生成式AI的下一个护城河将源于上下文质量、记忆设计、编排可靠性和信任体验四方面[50][51]
Z Potentials|陈加贝:飞书多维表创始工程师之一,开源Teable 20K星,全球首个Database Agent
Z Potentials· 2025-09-22 11:54
回溯TOB工具与数据库领域的发展历程,从早期依赖代码开发的传统数据库,到Airtable开启的表格 式数据库新赛道,再到Notion等工具推动的 "无代码" 协作浪潮,每一次技术迭代都在降低企业数据 管理的门槛。然而,在高度碎片化的业务场景中,大量个性化、长尾的数据协作需求仍未被满足,企 业依然依赖人工处理、多方沟通和零散工具拼凑来完成日常运营。 如今,AI 技术的爆发为 TOB 领域带来了新的破局可能 —— 从 "工具辅助" 向 "智能协同" 的跃迁正 在发生。传统"数据库即存储"的理念逐渐被"数据库即协作伙伴"所替代,AI不仅理解数据结构,更能 主动参与业务流程, 在这一背景下,全球首个Database Agent——Teable的出现,打通了 "需求提出 - 流程落地 - 自动化运转" 的核心枢纽,重新定义了企业协作与数据驱动的效率边界。 本期访谈,我们有幸邀请到 Teable 创始人陈加贝。他曾是飞书多维表格的首批工程师、Vika维格表 的联合创始人兼CTO,如今带领Teable在GitHub上斩获2万Star,并推出全球首个Database Agent。在 这场对话中,我们深入探讨了他如何从多次创业 ...
中美 Agent 创业者闭门:一线创业者的教训、抉择与机会
Founder Park· 2025-09-04 20:22
文章核心观点 - Agent行业在2025年成为AI领域最热话题 但实际落地产品稀少 面临技术、商业化和交互设计等多重挑战 行业正从通用化转向垂直深耕 核心竞争壁垒将围绕环境理解、学习记忆和场景优化能力构建 [5][8][36] 技术实施挑战 - 新一代Agent Model的规划与工具调用能力提升 取代了大量基于规则的工作流编排等外围工程 导致早期工程化工作被大模型能力迭代淹没 [6][10] - 隐性知识获取是核心挑战 包括默会知识(如广告创意规则)、组织共识性知识(如字节各小组Golang使用差异)和企业自定义规则(如ACV计算标准) [11][12] - 环境构建成为实施重点 包含三要素:执行能力(Computer Use)、业务连接(企业系统工具化)和上下文载体(领域术语与企业知识) 其中Context质量决定实际落地效果 [13][14][15] 技术路线选择 - Workflow-based与Agentic技术路线将长期并行 Workflow适用于规则驱动型任务(如订单处理可节省10多人人力) Agentic更适合多步骤灵活任务(如数据分析) [16][17][19] - 企业过往积累的流程机器人和系统集成(如RPA资产)可转化为Agent工具 实现技术路线平滑过渡 [18] 商业化路径 - 大客户(KA)市场预算充足但实施成本高、决策链长 中小客户(SMB)市场呈现民主化机遇 AI将大组织专属运营能力标准化赋能中小企业 [21] - 分层并进策略:通过SMB市场验证产品价值和商业模式 用标准化案例撬动KA市场建立标杆 [21] - 巨头对AI推进持谨慎态度 因生产力提升难以量化 且更关注实际收入而非创新 [22] 产品战略方向 - 通用Agent留存率仅约10% 因场景深度不足(仅60分水平) 垂直Agent留存率可达20%以上 需从通用转向垂直深耕 [23][27] - PPT Agent案例显示 通过专用模型训练(内容检索与排版视觉)、工作流补齐(美化/按大纲制图)和企业知识库对接 可显著提升输出质量 [26][27] 人机交互设计 - GUI操作价值存在争议 但短期内难以绕过现有GUI应用体系 且GUI承载丰富上下文信息 若视觉理解能力提升可能重新凸显价值 [28][29] - 交互颗粒度设计需平衡用户偏好询问与自主推进 关键是通过学习机制记忆用户修正反馈(如LemonAI旅游规划案例) [30] - 借鉴管理学情境领导理论 需建立共享上下文机制使Agent理解权限边界和协作规则 最先进AI产品正尝试让Agent主动提出建议和请求协助 [31][32] 多Agent协作 - 多Agent落地核心矛盾在于上下文共享精度:共享过多退化为单体Agent 抽取不准导致交接失败 [33] - 有效路径采用任务分解加专家模型组合(类似MapReduce模式) 并引入异步协作机制平衡一致性、延迟和成本 [34] 模型能力演进 - Claude Code代表"模型即Agent"路径 Cursor代表"Agent下沉环境"路径 长期护城河在于环境操作、学习闭环、场景优化和多Agent协作标准 [36][37] - 需关注四大技术拐点:长期规划与连续行动能力(如Claude Code)、多模态深度融合、界面自动生成、Context Engineering与记忆机制 [38][39] - 多模型分工比单一超级模型更务实 各模型能力侧重不同:ChatGPT强于战略思考 Gemini覆盖面广 Claude规划与代码能力最强 [40][41][43] 学习记忆机制 - 学习能力是核心挑战 需从认知科学角度构建三类记忆:Semantic Memory(概念记忆)、Episodic Memory(情景记忆)和Procedural Memory(程序记忆) [42][44][45] - 当前AI缺乏Episodic Memory 因企业过程数据稀缺 需通过过程数据收集、人机协作轨迹学习和场景化学习机制建立情景记忆 [44][46] - 前沿探索包括LemonAI通过记录用户修改反馈改进推荐算法 实现从结果导向到过程导向的转变 [47]
AI大家说 | 忘掉《Her》吧,《记忆碎片》才是LLM Agent的必修课
红杉汇· 2025-09-01 08:06
AI Agent行业发展趋势 - AI行业叙事从聊天机器人转向AI Agent 聚焦任务分解 工具调用和自主规划[3] - 2025年行业讨论焦点转向任务分解 工具调用和自主规划 标志着AI Agent时代的到来[3] 上下文工程技术架构 - 上下文工程是围绕LLM有限注意力设计的信息输入输出管理技术栈 目标是为每个决策点提供恰到好处的信息[5][6] - 系统需要解决无状态系统执行长期有状态任务的工程挑战 核心在于设计外部系统弥补内存限制[8][9] - 技术栈包含三大支柱:外部知识管理系统(RAG) 上下文提炼与结构化 分层记忆管理[11] 外部知识管理系统(RAG) - 系统通过信息采集固化 上下文标注和按需调用实现完整知识管理闭环[14] - 选择性记录关键信息至关重要 避免无关信息淹没检索系统[15] - 拍立得系统对应RAG技术 实现将流动现实固化为可永久保存的知识单元[14] 信息处理与结构化 - 信息需要提炼压缩和结构化 在有限Token预算内最大化信息密度[18] - 莱纳德将信息从照片升级到纹身 体现极致信息压缩和物理结构化[18] - 核心信息经过反复验证后成为不可更改的断言 构成世界观基石[18] 分层记忆管理体系 - 系统分为三层:核心任务层(不可变) 情景工作记忆层(可读写) 瞬时处理窗口(易失)[19][20] - 核心任务层定义身份和终极目标 拥有最高决策权重[19] - 瞬时处理窗口直接对应LLM上下文窗口 是真正思考发生的地方[20] Agent系统设计风险 - 外部投毒风险:系统可能处理精心筛选或扭曲的信息 导致输出错误结论[23] - 内部污染风险:自我强化的认知牢笼使系统无法识别自身生成的错误信息[24][26] - 多步任务规划Agent缺乏独立自我审查视角 容易在循环中放大错误[26] 系统验证与反思机制 - 现有系统缺少验证与反思模块 无法比对行动结果与预期目标的差距[27] - 反思是重要工程模块 需要生成误差报告作为下一次行动的关键输入[27] - 构建能可靠行动的系统比构建能行动的系统更具挑战性[27]
李建忠:关于AI时代人机交互和智能体生态的研究和思考
AI科技大本营· 2025-08-18 17:50
大模型推理范式转换 - 主流模型从训练模型转向推理模型,OpenAI o1通过强化学习实现推理能力大幅提升,DeepSeek R1成为全球首个开源推理模型[9] - 推理模型具备"讲逻辑"的慢思考能力,强化学习推动AI进入"经验数据时代",突破人类知识边界[11][13] - 强化学习在测试时和强化学习阶段的Scaling Law叠加,推动模型性能持续攀升[14] - 主流SOTA模型内置Agent和Tool Use能力训练,向智能体模型迭代[16][18] 应用开发范式转换 - 软件开发从AI辅助编程(AI Copilot)转向非专业人士使用的"氛围编程"(Vibe Coding)[22] - 氛围编程将开创"可塑软件"新市场,允许用户通过自然语言对软件底座进行个性化定制[24][26][27] - 上下文工程取代提示词工程成为发挥推理模型能力的关键,需提供全面准确的上下文信息[29][32] 人机交互范式转换 - 自然语言对话界面将成为AI时代的主要交互入口,涵盖智能眼镜、汽车语音等多种形态[36][38][39] - 传统GUI应用将演变为API服务,由Agent直接调用,打破孤立App壁垒[43][45][47] - 生成式UI(GenUI)将取代传统GUI,专注于图形化呈现结果而非交互和数据收集[54] - 交互设备可能进入"多元设备"时代,不同场景使用不同专用设备而非单一中心化设备[59] 智能体生态演进 - 智能体平台需要规划、工具、协作、记忆、行动五大能力矩阵[64][66][67] - MCP协议成为智能时代HTTP协议,标准化智能体与传统软件的交互[66] - A2A协议支持智能体间拟人化协作,构建去中心化智能体网络[66][70] - 智能体执行时长将从秒级扩展到数小时甚至数年,采用伴随式异步交互模式[73][75] - 互联网将从"信息网络"重构为"行动网络",网站主要访问者变为智能体[67]