Workflow
MetaGPT
icon
搜索文档
AI Agents与Agentic AI的范式之争?
自动驾驶之心· 2025-09-13 00:03
AI智能体发展演进 - ChatGPT于2022年11月发布彻底改写AI发展轨迹 AI Agents与Agentic AI搜索热度自2022年底起持续飙升 [2][4] - 早期智能体如20世纪70年代MYCIN系统依赖符号推理和预设规则 缺乏学习能力和自主适应性 [10] - 多智能体系统MAS与BDI架构在1999年后发展 智能体被定义为具备自主性 感知力与通信能力的实体 但仍受预编程限制 [11] - 2023年AutoGPT BabyAGI等框架标志AI Agents落地 结合LLM与外部工具自主完成多步骤任务 [12] - 2023年底CrewAI MetaGPT系统推动进入Agentic AI阶段 多专业智能体协同分工 [12] - 谷歌2025年提出Agent-to-AgentA2A协议 制定五大核心原则 包括发挥智能体能力 保障交互安全 支持长期任务等 [12] AI Agents核心定义与特征 - AI Agents是由LLM和LIM驱动的模块化系统 用于特定任务自动化 填补生成式AI只会说不会做的空白 [13] - 具备三大核心特征 自主性无需持续人工干预 任务特异性聚焦单一明确领域 反应性能响应动态环境变化 [16][17] - 技术基石为LLM与LIM双引擎驱动 LLM承担推理与决策中枢角色 LIM延伸视觉感知能力 [21] - 工具集成解决LLM静态知识和幻觉问题 过程分为调用-结果整合两步 ReAct框架实现推理与行动交替 [19] - Anthropic的Computer Use项目让Claude模型操作电脑 通过目标-行动-观察循环完成任务 [18] - AutoGPT处理产品市场分析时依次调用网页搜索 Excel 报告生成工具 GPT-Engineer自动生成代码并测试运行 [20] Agentic AI系统级突破 - Agentic AI是多智能体协作革命 核心在于通过多智能体协作解决复杂任务 实现从孤立执行到协同决策的范式转变 [24][27] - 与AI Agents的本质区别在于引入系统级智能 具备动态任务分解 多智能体分工 协同与适应三大能力 [33] - 架构依赖协调层与共享记忆双支柱 协调层由元智能体担任 共享记忆分为情景记忆 语义记忆和向量记忆 [36] - 多智能体科研助手如AutoGen框架自动分配检索 总结 整合 写作 引用智能体协作撰写综述 [37] - 智能机器人协调在果园采摘场景中 包含无人机测绘 采摘机器人 运输机器人和路径规划智能体 [37] - 医疗决策支持在ICU场景中 由监测 病史 治疗和协调智能体构成 减少医生认知负担和误判风险 [38] 应用场景对比 - AI Agents适用于客户服务聊天机器人 虚拟助手 自动化工作流程等单一明确任务 [28][30] - Agentic AI适用于供应链管理 业务流程优化 虚拟项目经理等复杂多步骤任务 [28][30] - AI Agents在企业场景中应用于客户支持 电子邮件筛选 个性化内容推荐 自主日程助手等模块化任务 [41] - Agentic AI在科学 农业 医疗 信息技术安全等领域实现可扩展自主化任务协同 如自动化基金申请 果园采摘 ICU临床决策 网络安全事件响应 [43] 技术挑战与解决方案 - AI Agents面临因果推理缺失 LLM固有缺陷幻觉 知识滞后 提示敏感性 长期规划能力弱等痛点 [50] - Agentic AI新增误差传递 协调瓶颈 涌现行为不可预测 可解释性差等挑战 [50] - 十大核心解决方案包括检索增强生成RAG ReAct框架 因果建模 共享记忆架构 元智能体协调 工具验证机制 程序式提示工程 反思机制 监控与审计pipeline 治理架构 [49][52][53] 未来发展路线 - AI Agents进化重点包括提升主动推理能力 深化工具集成 强化因果推理与持续学习 [57] - Agentic AI突破方向包括规模化多智能体协作 领域定制化 伦理治理 [57] - 颠覆性探索如Absolute ZeroAZR框架实现零数据学习 智能体自主生成任务并验证优化 [57] - 终极方向是从自动化工具进化为人类协同伙伴 需突破因果推理深度化 可解释性透明化 伦理安全体系化三大瓶颈 [58][59]
2025服贸会|梅花创投创始人吴世春:资本对AI的兴奋点从技术转向商业结果
北京商报· 2025-09-11 21:30
行业趋势 - 具身智能被视为AI发展的最佳载体 投资机构积极布局从本体到大脑及部件的全产业链项目 [1] - 大模型格局基本确定 巨头已完成市场基础设施建设 资本兴奋点从大模型转向应用层和结果付费模式 [1] - AI相关企业估值在过去一年平均上涨37% 中国科技资产引发全球重新评估 [3] 投资策略 - 投资重点聚焦能形成品牌的科技产品 能构建生态的技术平台 以及能形成垄断的零部件或原材料供应商 [4] - 重点关注垂直细分领域 选择成熟行业深入理解痛点 通过AI重塑工作流程 [3] - 通过跨界连接发现机会 避免同质化创业和大厂业务覆盖区域 [3] 市场定位 - 将2025年定位为产业拐点 类比互联网2002年与移动互联网2011年的发展阶段 [3] - 通用型Agent领域竞争激烈 主要由大厂主导 基础设施层存在标准化挑战 [4] - 优先布局面向特定行业的垂直化Agent 以及面向C端用户的垂直场景应用 [4] 技术发展 - DeepSeek通过改进国产芯片运算逻辑实现技术突破 [3] - 技术门槛降低使纯技术背景优势减弱 行业专业知识和场景理解更为关键 [3]
AI Agents与Agentic AI 的范式之争?
自动驾驶之心· 2025-09-06 00:03
AI智能体技术演进历程 - ChatGPT于2022年11月发布彻底改写AI发展轨迹 引发AI Agents和Agentic AI搜索热度飙升[2][4] - 早期专家系统如MYCIN(70年代)依赖符号推理和预设规则 缺乏学习能力和环境适应性[10] - 多智能体系统(MAS)和BDI架构(1999年)实现分布式问题解决 但仍受预编程限制[11] - 2023年AutoGPT等框架标志AI Agents落地 结合LLM与外部工具实现多步骤任务自主执行[12] - 2023年底CrewAI等系统推动进入Agentic AI阶段 多专业智能体协同分解复杂目标[12] - 谷歌2025年推出A2A协议 制定五大核心原则解决智能体互操作问题[12] AI Agents核心技术架构 - 定义为LLM和LIM驱动的模块化系统 填补生成式AI"只会说不会做"的空白[13] - 具备三大核心特征:自主性(无需人工干预) 任务特异性(专注单一领域) 反应性(适应动态变化)[16][17] - LLM作为推理决策中枢 承担目标解析 步骤分解和工具调用协调功能[21] - LIM扩展视觉感知能力 例如果园巡检AI实时识别病果和断枝并触发警报[21] - 工具集成通过"调用-结果整合"流程解决LLM知识滞后和幻觉问题[19] - ReAct框架实现推理与行动交替进行 例如ChatGPT网页搜索先判断知识缺口再调用工具[19] - Anthropic的"Computer Use"项目实现目标-行动-观察循环 控制鼠标键盘完成软件测试等任务[18] Agentic AI系统级创新 - 实现从孤立执行到协同决策的范式转变 核心在于多智能体协作解决复杂任务[24][27] - 与AI Agents关键差异体现在:广泛自主性 复杂任务协调 多智能体信息共享和跨环境学习能力[28] - 智能家居案例展示系统级智能:天气预测 能源管理和安防智能体协同实现全局目标[29] - 架构依赖两大支柱:协调层(元智能体负责任务分配和冲突解决) 共享记忆(存储任务进度和上下文)[33][36] - 动态任务分解将高级目标拆分为子任务 分配给专业智能体避免效率低下[33] - 科研助手AutoGen框架实现多智能体分工:检索 总结 整合 写作和引用智能体协同撰写综述[37] - 医疗决策支持系统集成监测 病史 治疗和协调智能体 降低误判风险并减少医生认知负担[38] 应用场景与典型案例 - AI Agents适用于客户服务 邮件筛选 内容推荐和日程管理等标准化任务[41] - Agentic AI在科研 农业 医疗和网络安全等复杂动态环境中展现优势[43] - 果园采摘场景实现多机器人协同:无人机测绘 采摘机器人 运输机器人和路径规划智能体联动[37][43] - 自动化基金申请书撰写通过多智能体协同完成文献分析 合规匹配和格式规范[43] - 企业网络安全事件响应由智能体分别处理威胁分类 合规分析和缓解方案制定[43] - ICU临床决策支持系统同步执行诊断 治疗方案制定和EHR分析 提升医疗安全性[43] 技术挑战与解决方案 - AI Agents存在因果推理缺失 LLM幻觉 知识滞后 提示敏感性和长期规划弱等痛点[50] - Agentic AI新增误差传递 协调瓶颈 涌现行为不可预测和可解释性差等挑战[50] - 十大解决方案包括:RAG提供实时外部知识 ReAct框架强化推理行动循环 因果建模区分相关性[49][52][53] - 共享记忆架构解决信息同步 元智能体协调避免混乱 工具验证机制自动修正错误[53] - 反思机制赋予自我批判能力 监控审计pipeline记录决策日志 治理架构防范安全风险[53] 未来发展方向 - AI Agents进化重点:提升主动推理能力 深化工具集成(结合机器人硬件) 强化因果推理[57] - Agentic AI突破方向:规模化多智能体协作(支持上千智能体) 领域定制化 伦理治理[57] - Absolute Zero框架探索零数据学习 实现自我驱动式的科研假设生成和验证[57] - 终极目标是从自动化工具进化为人类协同伙伴 适应高风险领域共同决策[58] - 需突破因果推理深度化 可解释性透明化和伦理安全体系化三大瓶颈[59]
技术狂飙下的 AI Assistant,离真正的 Jarvis 还有几层窗户纸?
机器之心· 2025-07-30 09:30
01 通用 Agent 架构受限,任务智能还停留在「样板房」? - 当前 AI Assistant 的核心挑战集中在智能规划与调用、系统延迟与协同、交互记忆与拟人性以及商业模式与落地路径四个维度 [2] - 在任务执行智能方面,一条核心路线是构建长程、循环、可泛化的通用任务框架,实现从目标理解到任务完成的全过程 [2] - 通用框架的代表 Manus 采用「多步任务规划 + 工具链组合」架构,将 LLM 用作「控制中心」,但在实际测试中对复杂网页结构的抓取覆盖不足 [4] - MetaGPT 强调通用框架需叠加「代码执行、记忆管理与系统调用」等组件,但存在延迟高、调用链复杂、成本不可控等问题 [4] - 「逐场景做透」的技术路线更强调低门槛部署与稳定性,适用于「弱通用、强完成」的应用需求,但在非结构化任务或领域迁移时表现明显下降 [4] - Browser-Use 类路径支持 Agent 模拟浏览器登录、填写表单、抓取信息、提交交易等功能,但稳定性、安全性与权限系统仍未成熟 [6] - 无代码出工具(No‑Code Agent Builder)正成为下一代 AI Assistant 的推荐解决方案,如 AutoGen Studio、Base44 和 StackAI 等 [6][7] 02 一句话唤醒万物,AI Assistant 要补齐的系统短板有哪些? - AI Assistant 最终要以语音为主要形态和用户进行交互,系统优化层面面临语音交互低延迟、全双工语音、能力与硬件/系统行动绑定等挑战 [8]
共青年之智,铸AGI未来|2025 WAIC云帆奖得主名单揭晓
机器之心· 2025-07-29 14:38
2025 WAIC 云帆奖颁奖典礼 - 活动由上海人工智能实验室、机器之心、全球高校人工智能学术联盟联合主办,并得到东方菁汇、长三角国家技术创新中心、真格基金、中国联通等机构支持 [1] - 汇聚150余位产学研资核心力量,包括AI技术产业领袖、学术新锐和顶尖投资人 [1] - 设立「璀璨明星」和「明日之星」两大奖项,并创新性增设「提名奖」完善人才体系 [2][6] 璀璨明星得主成就 - 陈建宇:UC Berkeley博士,机器人与AI领域发表70+篇顶会论文,入围RSS 2024等国际会议优秀论文奖,福布斯中国"30Under30" [14] - 高阳:伯克利博士,开发OneTwoVLA模型提升泛化能力,EfficientZero系列为全球样本效率最高强化学习算法,创立千寻智能完成多轮融资 [16] - 何聪辉:清华博士,创建OpenDataLab开源平台(GitHub星标4万+),获"戈登•贝尔"奖,负责浦江书生大模型数据体系 [18] - 刘邦:MetaGPT联合发起人,构建材料科学大模型推动新材料智能设计,获2024云帆奖等多项荣誉 [20] - 王翔:中科大教授,谷歌学术引用2万+,获ICLR杰出论文奖、MIT TR35榜单等 [24] 明日之星得主成就 - 陈天龙:UNC助理教授,研究方向包括多模态学习与大语言模型,获Amazon Research Award等多项荣誉 [37] - 陈小康:DeepSeek AI研究员,主导Janus-Series多模态大模型项目(GitHub星标2万+,Huggingface百万下载) [39] - 崔淦渠:清华博士,大模型对齐技术研究者,开发UltraFeedback等数据集,谷歌学术引用1.1万+ [41] - 傅朝友:VITA多模态大模型系列开发者(GitHub星标3千+),创建Awesome-MLLM社区(星标1万+) [43] - 骆昱宇:港科大(广州)助理教授,Text2SQL技术落地华为/国家电网,获SIGMOD 2023最佳论文奖 [53] 技术突破方向 - 具身智能:高阳开发OneTwoVLA实现推理与动作无缝切换,顾家远获SIGGRAPH 2025最佳论文奖 [16][47] - 多模态大模型:陈小康Janus-Pro项目解耦视觉编码技术被业界广泛采用,傅朝友VITA系列推动多模态发展 [39][43] - AI硬件:张宸研究智能处理器架构突破算力/能耗瓶颈,龚睿昊高效学习系统被AMD/英特尔集成 [30][45] - 强化学习:吴翼开发MADDPG/MAPPO算法(多智能体强化学习最高引),于力军参与Gemini项目获ICML最佳论文 [26][59]
生成式 AI 的发展方向,应当是 Chat 还是 Agent?
自动驾驶之心· 2025-07-11 19:23
Chat与Agent的区别 - Chat是主要由"大脑和嘴"构成的智能体,专注于信息处理和语言交流,如ChatGPT这样的系统,能理解查询并给出连贯回答但不直接执行任务 [1] - Agent是具有"手、脚"的智能体,能进行思考、决策并执行具体任务 [2] - Chat强调"说",Agent强调"做" [3] 技术发展趋势 - 人类对"让机器替人干活"的需求持续存在,OpenAI通过plugin、Function Calling、Assistant API等动作推动LLM从纯对话向任务执行扩展 [4] - 智能音箱发展路径类似:从基础语音功能(如播放音乐)逐步扩展到支付互通、智能家居控制、儿童教育等场景,成为智能生态核心 [4][5] - AI+RPA技术推动智能客服向数字员工进化,体现AI从单一对话到"说做结合"的融合趋势 [5] - 未来生成式AI将融合Chat和Agent特点,形成兼具高质量对话与复杂任务执行能力的自动化系统 [6] AI Agent的技术变革 - 颠覆传统软件开发模式:从预先定义逻辑转向由LLM自主支配运行,实现运行时学习与调优 [7] - 核心模块包括Memory(记忆)、Tools(外部工具)、Planning(计划)和Action(行动) [7] - 当前学习路径分为OpenAI技术路线和开源技术路线,建议技术人员选择一条深入实践 [9] 典型AI Agent项目案例 - AutoGPT:可拆解用户目标为子任务,通过搜索、脚本执行等方式自主完成任务 [11][12] - JARVIS:采用"模型选择"机制,调用Huggingface专家模型处理多模态任务 [13][15] - MetaGPT:模拟软件公司结构,分配产品经理、工程师等角色协作完成编码任务 [16] 开发者生态与机会 - 工具/平台成熟为个体开发者提供新舞台,使AI原生应用开发门槛降低 [16] - 自动驾驶领域已形成近4000人社区,覆盖300+企业与科研机构,涉及30+技术栈(如BEV感知、SLAM、轨迹预测等) [19][21]
「0天复刻Manus」的背后,这名95后技术人坚信:“通用Agent一定存在,Agent也有Scaling Law”| 万有引力
AI科技大本营· 2025-07-11 17:10
AI Agent技术发展 - Manus项目引爆AI Agent热潮,展示从语言理解向任务执行的演化能力[2] - 行业对Agent Scaling Law和通用Agent可行性存在争议,部分研究者认为技术进步将实现通用能力跨越[2] - OWL项目在GAIA Benchmark位列第一,是最强开源Agent之一,十天斩获1w+ Star[6][8] - CAMEL框架是全球首个多智能体框架,已有两年技术积累[6] - OWL项目构建初衷是为开发者提供开源可拓展基础框架,而非与Manus比拼产品化能力[8] 开源社区与技术迭代 - OWL项目上线后收到大量社区反馈,GitHub上关闭200+ Issue,微信群反馈达上千条[9] - 社区开发者积极贡献PR,改进UI/UX和交互体验[10] - OWL进行重要重构,平衡性能与成本控制,GAIA-58.18分支为性能最优版本[11] - 新增Terminal Tool Kit功能,支持Agent调用终端安装依赖库并执行代码[12] - CAMEL团队计划将40多种常用工具接入MCP Server,构建工具生态[31] 多智能体系统研究 - 在多智能体协作实验中,70%任务场景中双Agent协作效果优于单Agent[21] - OASIS项目支持100万Agent交互,开展社会模拟研究[22] - 探索利用Agent生成合成数据提升多智能体系统质量[23] - 多智能体系统优化涉及协作机制、任务调度、工具调用流程等多个维度[27] - 未来可能形成分工明确、组合灵活、成本可控的Agent生态[29] 行业协议与生态 - MCP协议简化Agent开发流程,提供统一接口调用外部工具[30][32] - Google推出A2A协议,侧重统一Agent间接入范式[34] - 协议价值取决于参与者数量和生态繁荣程度[34] - CAMEL团队同时支持MCP和A2A协议[35] 开发者经验与建议 - 建议开发者从模型底层机制入手学习Agent开发,而非直接使用抽象框架[38] - 使用AI Coding工具需进行代码审查,修改量约20%[44] - AI生成代码可能仅提供局部最优解,需关注全局结构[46] - 保持学习能力和辨别能力是应对AI快速迭代的关键[37]
梅花创投创始合伙人吴世春:AI创业正当时 可选择小切口进入
搜狐财经· 2025-07-06 21:17
AI创业与投资趋势 - AI创业正当时,创业者可选择小切口进入,要有独特数据与独特场景 [1][3] - 2025年是AI Agent元年,AI Agent是基于大模型,具备记忆能力、自主推理和规划工具使用能力的智能程序 [3] AI Agent投资方向 - 直面用户的通用型Agent是大厂主战场,竞争激烈,如Manus、Genspark等 [3] - Agent基础设施与框架层面临标准化缺失问题 [3] - 面向特定行业的垂直化Agent是需要重点关注的领域,如深度赋智等 [3] AI Agent物理落地场景 - 具身智能、自动驾驶、无人机、AI玩具是Agent的四大物理落地场景 [3] - 具身智能是中国引领世界的历史机遇 [3] - 投资偏好可关注整机、关节、触觉传感器、灵巧手等核心零部件,以及形成规模效应的定制化服务 [3] 投资逻辑 - "独角虎"理论以多维评价标准取代独角兽单一的估值评价标准 [4] - "投资小镇青年"理论指投资出身非顶尖资源圈层但具备极强抗压能力与草根创业精神的创业者 [4] - "人事时值四合一"理论强调在早期投资判断中,"人、事、时、值"四个关键要素不可或缺 [4]
学术循环型组织:DeepSeek 挑战巨头的秘密武器
晚点LatePost· 2025-04-03 14:20
学术循环与组织创新 - 创新的本质在于如何组织集体思考而非技术工具或方法论 当组织能系统性超越人类思维局限时 突破会自然涌现[2][35] - 学术循环通过组织级别的Critical Thinking持续推动原子化创新 进而扩展科学边界 典型案例包括DeepSeek R1、OpenAI的ChatGPT及字节跳动的推荐系统[5][6] - 成功企业共性在于构建学术循环结构 如DeepSeek开源增强透明度 OpenAI早期自由架构 字节跳动实验系统强制Critical Thinking[6][33] 标杆企业对比分析 | 维度 | DeepSeek | OpenAI | 字节跳动 | |------------|-----------------------|----------------------|---------------------| | 学术循环 | 开源增强高透明度 | 早期自由现层级化 | 实验系统被动获得 | | 关键产出 | R1模型(2025 DAU 1000w)| ChatGPT(估值100b+) | 行业最佳推荐系统 | | 管理特点 | 全员平等调动资源 | 早期自由现控制加强 | 部分自由OKR驱动 | [6] Critical Thinking机制 - 理性思维是学术循环基础 需区分事实与观点 按证据等级(观点<共识<实验<A/B测试)决策 字节跳动通过强制A/B测试使CTR年增1%[11][12] - 集体理性要求对事不对人 鼓励跨边界交流 通过文档化替代低效辩论 如DeepSeek用RFC格式沉淀思考[14][15] - 个体Critical Thinking不等于集体效能 需配合真诚文化 如OpenAI早期允许打破学术惯例快速迭代[9][33] 组织动力系统 - 心流状态可提升数倍效率 需好动机(非金钱驱动)+100%投入 如张一鸣强调延迟满足对抗基因引力[17][18] - 接受人类缺陷:立即行动优于完美规划 记录优于记忆 错误是必要学习路径 弗莱明发现青霉素即典型案例[24][26][27] - 真诚文化突破边界感 适度严谨+开放纠错 避免精英团队陷入表面和谐[28][29] 创新路径选择 - 全局最优重于局部优化 DeepSeek放弃MCTS/PRM失败路径 OpenAI经历RL挫折后转向LLM[6][31] - 结果导向容忍有益混乱 字节跳动OKR机制支持探索未知 对比KPI驱动组织的短视风险[34] - 模糊正确组合推动质变 如word2vec向量距离与Transformer并行设计奠定LLM基础[12][13] 行业启示 - 算法终将过时 但学术循环形成后成为持续创新源泉 这是DeepSeek、OpenAI、字节跳动超越同行的底层逻辑[35] - 组织文化比资源更重要 MetaGPT团队通过多智能体架构在ICLR竞赛斩获名次 验证学术循环可复制性[36]
00后程序员当道!下班3小时“爆肝” OpenManus背后的故事
AI科技大本营· 2025-04-02 16:11
文章核心观点 - Manus凭借云端自主执行、多智能体协同、持续学习与记忆等核心能力成为全球首个通用AI智能体,迅速引爆AI圈 [1] - DeepWisdom的MetaGPT团队在3小时内复刻Manus并开源OpenManus,上线不到一个月GitHub获40.4k Star和6.8k Fork [1] - OpenManus由00后开发者主导,完全基于兴趣驱动,体现技术信仰与开源精神 [2][3] - 直播活动将揭秘00后程序员开发OpenManus的过程及对通用Agent的思考 [7][11] 行业技术动态 - Manus具备写代码、查资料、智能浏览网页、操作应用等全能AI能力,显著降低人工干预需求 [1] - 开源项目OpenManus实现零门槛访问,打破Manus邀请码限制,推动智能体技术普及 [1] - 团队开发效率惊人:从复刻到上线仅用3小时业余时间,展现极强执行力 [1] 开发者生态 - 00后开发者群体以兴趣为导向,项目开发不受KPI或商业利益约束 [2][3] - OpenManus核心作者梁新兵为MetaGPT开源核心贡献者,研究方向聚焦AI Agent技术推广 [9] - 向劲宇等年轻研究者兼具学术与工程能力(ICLR 2025 oral论文作者),代表新生代技术力量 [10] 开源社区表现 - OpenManus GitHub仓库热度持续攀升,主分支访问量显著(tree/main路径显示活跃开发) [4] - 项目技术讨论涵盖强化学习微调、通用Agent可行性等前沿方向 [7] 行业活动 - CSDN《万有引力》栏目将深度解析OpenManus开发历程与技术细节 [11] - 直播话题包括开源协作模式、00后程序员工作方式及Agent技术实践 [5][7]