MetaGPT

搜索文档
技术狂飙下的 AI Assistant,离真正的 Jarvis 还有几层窗户纸?
机器之心· 2025-07-30 09:30
01 通用 Agent 架构受限,任务智能还停留在「样板房」? - 当前 AI Assistant 的核心挑战集中在智能规划与调用、系统延迟与协同、交互记忆与拟人性以及商业模式与落地路径四个维度 [2] - 在任务执行智能方面,一条核心路线是构建长程、循环、可泛化的通用任务框架,实现从目标理解到任务完成的全过程 [2] - 通用框架的代表 Manus 采用「多步任务规划 + 工具链组合」架构,将 LLM 用作「控制中心」,但在实际测试中对复杂网页结构的抓取覆盖不足 [4] - MetaGPT 强调通用框架需叠加「代码执行、记忆管理与系统调用」等组件,但存在延迟高、调用链复杂、成本不可控等问题 [4] - 「逐场景做透」的技术路线更强调低门槛部署与稳定性,适用于「弱通用、强完成」的应用需求,但在非结构化任务或领域迁移时表现明显下降 [4] - Browser-Use 类路径支持 Agent 模拟浏览器登录、填写表单、抓取信息、提交交易等功能,但稳定性、安全性与权限系统仍未成熟 [6] - 无代码出工具(No‑Code Agent Builder)正成为下一代 AI Assistant 的推荐解决方案,如 AutoGen Studio、Base44 和 StackAI 等 [6][7] 02 一句话唤醒万物,AI Assistant 要补齐的系统短板有哪些? - AI Assistant 最终要以语音为主要形态和用户进行交互,系统优化层面面临语音交互低延迟、全双工语音、能力与硬件/系统行动绑定等挑战 [8]
共青年之智,铸AGI未来|2025 WAIC云帆奖得主名单揭晓
机器之心· 2025-07-29 14:38
2025 WAIC 云帆奖颁奖典礼 - 活动由上海人工智能实验室、机器之心、全球高校人工智能学术联盟联合主办,并得到东方菁汇、长三角国家技术创新中心、真格基金、中国联通等机构支持 [1] - 汇聚150余位产学研资核心力量,包括AI技术产业领袖、学术新锐和顶尖投资人 [1] - 设立「璀璨明星」和「明日之星」两大奖项,并创新性增设「提名奖」完善人才体系 [2][6] 璀璨明星得主成就 - 陈建宇:UC Berkeley博士,机器人与AI领域发表70+篇顶会论文,入围RSS 2024等国际会议优秀论文奖,福布斯中国"30Under30" [14] - 高阳:伯克利博士,开发OneTwoVLA模型提升泛化能力,EfficientZero系列为全球样本效率最高强化学习算法,创立千寻智能完成多轮融资 [16] - 何聪辉:清华博士,创建OpenDataLab开源平台(GitHub星标4万+),获"戈登•贝尔"奖,负责浦江书生大模型数据体系 [18] - 刘邦:MetaGPT联合发起人,构建材料科学大模型推动新材料智能设计,获2024云帆奖等多项荣誉 [20] - 王翔:中科大教授,谷歌学术引用2万+,获ICLR杰出论文奖、MIT TR35榜单等 [24] 明日之星得主成就 - 陈天龙:UNC助理教授,研究方向包括多模态学习与大语言模型,获Amazon Research Award等多项荣誉 [37] - 陈小康:DeepSeek AI研究员,主导Janus-Series多模态大模型项目(GitHub星标2万+,Huggingface百万下载) [39] - 崔淦渠:清华博士,大模型对齐技术研究者,开发UltraFeedback等数据集,谷歌学术引用1.1万+ [41] - 傅朝友:VITA多模态大模型系列开发者(GitHub星标3千+),创建Awesome-MLLM社区(星标1万+) [43] - 骆昱宇:港科大(广州)助理教授,Text2SQL技术落地华为/国家电网,获SIGMOD 2023最佳论文奖 [53] 技术突破方向 - 具身智能:高阳开发OneTwoVLA实现推理与动作无缝切换,顾家远获SIGGRAPH 2025最佳论文奖 [16][47] - 多模态大模型:陈小康Janus-Pro项目解耦视觉编码技术被业界广泛采用,傅朝友VITA系列推动多模态发展 [39][43] - AI硬件:张宸研究智能处理器架构突破算力/能耗瓶颈,龚睿昊高效学习系统被AMD/英特尔集成 [30][45] - 强化学习:吴翼开发MADDPG/MAPPO算法(多智能体强化学习最高引),于力军参与Gemini项目获ICML最佳论文 [26][59]
生成式 AI 的发展方向,应当是 Chat 还是 Agent?
自动驾驶之心· 2025-07-11 19:23
Chat与Agent的区别 - Chat是主要由"大脑和嘴"构成的智能体,专注于信息处理和语言交流,如ChatGPT这样的系统,能理解查询并给出连贯回答但不直接执行任务 [1] - Agent是具有"手、脚"的智能体,能进行思考、决策并执行具体任务 [2] - Chat强调"说",Agent强调"做" [3] 技术发展趋势 - 人类对"让机器替人干活"的需求持续存在,OpenAI通过plugin、Function Calling、Assistant API等动作推动LLM从纯对话向任务执行扩展 [4] - 智能音箱发展路径类似:从基础语音功能(如播放音乐)逐步扩展到支付互通、智能家居控制、儿童教育等场景,成为智能生态核心 [4][5] - AI+RPA技术推动智能客服向数字员工进化,体现AI从单一对话到"说做结合"的融合趋势 [5] - 未来生成式AI将融合Chat和Agent特点,形成兼具高质量对话与复杂任务执行能力的自动化系统 [6] AI Agent的技术变革 - 颠覆传统软件开发模式:从预先定义逻辑转向由LLM自主支配运行,实现运行时学习与调优 [7] - 核心模块包括Memory(记忆)、Tools(外部工具)、Planning(计划)和Action(行动) [7] - 当前学习路径分为OpenAI技术路线和开源技术路线,建议技术人员选择一条深入实践 [9] 典型AI Agent项目案例 - AutoGPT:可拆解用户目标为子任务,通过搜索、脚本执行等方式自主完成任务 [11][12] - JARVIS:采用"模型选择"机制,调用Huggingface专家模型处理多模态任务 [13][15] - MetaGPT:模拟软件公司结构,分配产品经理、工程师等角色协作完成编码任务 [16] 开发者生态与机会 - 工具/平台成熟为个体开发者提供新舞台,使AI原生应用开发门槛降低 [16] - 自动驾驶领域已形成近4000人社区,覆盖300+企业与科研机构,涉及30+技术栈(如BEV感知、SLAM、轨迹预测等) [19][21]
「0天复刻Manus」的背后,这名95后技术人坚信:“通用Agent一定存在,Agent也有Scaling Law”| 万有引力
AI科技大本营· 2025-07-11 17:10
AI Agent技术发展 - Manus项目引爆AI Agent热潮,展示从语言理解向任务执行的演化能力[2] - 行业对Agent Scaling Law和通用Agent可行性存在争议,部分研究者认为技术进步将实现通用能力跨越[2] - OWL项目在GAIA Benchmark位列第一,是最强开源Agent之一,十天斩获1w+ Star[6][8] - CAMEL框架是全球首个多智能体框架,已有两年技术积累[6] - OWL项目构建初衷是为开发者提供开源可拓展基础框架,而非与Manus比拼产品化能力[8] 开源社区与技术迭代 - OWL项目上线后收到大量社区反馈,GitHub上关闭200+ Issue,微信群反馈达上千条[9] - 社区开发者积极贡献PR,改进UI/UX和交互体验[10] - OWL进行重要重构,平衡性能与成本控制,GAIA-58.18分支为性能最优版本[11] - 新增Terminal Tool Kit功能,支持Agent调用终端安装依赖库并执行代码[12] - CAMEL团队计划将40多种常用工具接入MCP Server,构建工具生态[31] 多智能体系统研究 - 在多智能体协作实验中,70%任务场景中双Agent协作效果优于单Agent[21] - OASIS项目支持100万Agent交互,开展社会模拟研究[22] - 探索利用Agent生成合成数据提升多智能体系统质量[23] - 多智能体系统优化涉及协作机制、任务调度、工具调用流程等多个维度[27] - 未来可能形成分工明确、组合灵活、成本可控的Agent生态[29] 行业协议与生态 - MCP协议简化Agent开发流程,提供统一接口调用外部工具[30][32] - Google推出A2A协议,侧重统一Agent间接入范式[34] - 协议价值取决于参与者数量和生态繁荣程度[34] - CAMEL团队同时支持MCP和A2A协议[35] 开发者经验与建议 - 建议开发者从模型底层机制入手学习Agent开发,而非直接使用抽象框架[38] - 使用AI Coding工具需进行代码审查,修改量约20%[44] - AI生成代码可能仅提供局部最优解,需关注全局结构[46] - 保持学习能力和辨别能力是应对AI快速迭代的关键[37]
梅花创投创始合伙人吴世春:AI创业正当时 可选择小切口进入
搜狐财经· 2025-07-06 21:17
AI创业与投资趋势 - AI创业正当时,创业者可选择小切口进入,要有独特数据与独特场景 [1][3] - 2025年是AI Agent元年,AI Agent是基于大模型,具备记忆能力、自主推理和规划工具使用能力的智能程序 [3] AI Agent投资方向 - 直面用户的通用型Agent是大厂主战场,竞争激烈,如Manus、Genspark等 [3] - Agent基础设施与框架层面临标准化缺失问题 [3] - 面向特定行业的垂直化Agent是需要重点关注的领域,如深度赋智等 [3] AI Agent物理落地场景 - 具身智能、自动驾驶、无人机、AI玩具是Agent的四大物理落地场景 [3] - 具身智能是中国引领世界的历史机遇 [3] - 投资偏好可关注整机、关节、触觉传感器、灵巧手等核心零部件,以及形成规模效应的定制化服务 [3] 投资逻辑 - "独角虎"理论以多维评价标准取代独角兽单一的估值评价标准 [4] - "投资小镇青年"理论指投资出身非顶尖资源圈层但具备极强抗压能力与草根创业精神的创业者 [4] - "人事时值四合一"理论强调在早期投资判断中,"人、事、时、值"四个关键要素不可或缺 [4]
学术循环型组织:DeepSeek 挑战巨头的秘密武器
晚点LatePost· 2025-04-03 14:20
学术循环与组织创新 - 创新的本质在于如何组织集体思考而非技术工具或方法论 当组织能系统性超越人类思维局限时 突破会自然涌现[2][35] - 学术循环通过组织级别的Critical Thinking持续推动原子化创新 进而扩展科学边界 典型案例包括DeepSeek R1、OpenAI的ChatGPT及字节跳动的推荐系统[5][6] - 成功企业共性在于构建学术循环结构 如DeepSeek开源增强透明度 OpenAI早期自由架构 字节跳动实验系统强制Critical Thinking[6][33] 标杆企业对比分析 | 维度 | DeepSeek | OpenAI | 字节跳动 | |------------|-----------------------|----------------------|---------------------| | 学术循环 | 开源增强高透明度 | 早期自由现层级化 | 实验系统被动获得 | | 关键产出 | R1模型(2025 DAU 1000w)| ChatGPT(估值100b+) | 行业最佳推荐系统 | | 管理特点 | 全员平等调动资源 | 早期自由现控制加强 | 部分自由OKR驱动 | [6] Critical Thinking机制 - 理性思维是学术循环基础 需区分事实与观点 按证据等级(观点<共识<实验<A/B测试)决策 字节跳动通过强制A/B测试使CTR年增1%[11][12] - 集体理性要求对事不对人 鼓励跨边界交流 通过文档化替代低效辩论 如DeepSeek用RFC格式沉淀思考[14][15] - 个体Critical Thinking不等于集体效能 需配合真诚文化 如OpenAI早期允许打破学术惯例快速迭代[9][33] 组织动力系统 - 心流状态可提升数倍效率 需好动机(非金钱驱动)+100%投入 如张一鸣强调延迟满足对抗基因引力[17][18] - 接受人类缺陷:立即行动优于完美规划 记录优于记忆 错误是必要学习路径 弗莱明发现青霉素即典型案例[24][26][27] - 真诚文化突破边界感 适度严谨+开放纠错 避免精英团队陷入表面和谐[28][29] 创新路径选择 - 全局最优重于局部优化 DeepSeek放弃MCTS/PRM失败路径 OpenAI经历RL挫折后转向LLM[6][31] - 结果导向容忍有益混乱 字节跳动OKR机制支持探索未知 对比KPI驱动组织的短视风险[34] - 模糊正确组合推动质变 如word2vec向量距离与Transformer并行设计奠定LLM基础[12][13] 行业启示 - 算法终将过时 但学术循环形成后成为持续创新源泉 这是DeepSeek、OpenAI、字节跳动超越同行的底层逻辑[35] - 组织文化比资源更重要 MetaGPT团队通过多智能体架构在ICLR竞赛斩获名次 验证学术循环可复制性[36]
00后程序员当道!下班3小时“爆肝” OpenManus背后的故事
AI科技大本营· 2025-04-02 16:11
文章核心观点 - Manus凭借云端自主执行、多智能体协同、持续学习与记忆等核心能力成为全球首个通用AI智能体,迅速引爆AI圈 [1] - DeepWisdom的MetaGPT团队在3小时内复刻Manus并开源OpenManus,上线不到一个月GitHub获40.4k Star和6.8k Fork [1] - OpenManus由00后开发者主导,完全基于兴趣驱动,体现技术信仰与开源精神 [2][3] - 直播活动将揭秘00后程序员开发OpenManus的过程及对通用Agent的思考 [7][11] 行业技术动态 - Manus具备写代码、查资料、智能浏览网页、操作应用等全能AI能力,显著降低人工干预需求 [1] - 开源项目OpenManus实现零门槛访问,打破Manus邀请码限制,推动智能体技术普及 [1] - 团队开发效率惊人:从复刻到上线仅用3小时业余时间,展现极强执行力 [1] 开发者生态 - 00后开发者群体以兴趣为导向,项目开发不受KPI或商业利益约束 [2][3] - OpenManus核心作者梁新兵为MetaGPT开源核心贡献者,研究方向聚焦AI Agent技术推广 [9] - 向劲宇等年轻研究者兼具学术与工程能力(ICLR 2025 oral论文作者),代表新生代技术力量 [10] 开源社区表现 - OpenManus GitHub仓库热度持续攀升,主分支访问量显著(tree/main路径显示活跃开发) [4] - 项目技术讨论涵盖强化学习微调、通用Agent可行性等前沿方向 [7] 行业活动 - CSDN《万有引力》栏目将深度解析OpenManus开发历程与技术细节 [11] - 直播话题包括开源协作模式、00后程序员工作方式及Agent技术实践 [5][7]
独家|专访吴承霖,PH周榜冠军Coding Agents完成亿元融资,零推广月收百万美金,开源OpenManus
Z Potentials· 2025-03-25 10:34
公司融资与产品表现 - DeepWisdom完成亿元级融资 旗下智能体产品mgx dev以零推广首月实现百万美元ARR 连续四周占据Product Hunt全球榜首 [1] - MGX产品ARR增长速度可能是中国历史最快 未投入任何宣传费用 [3][45] - 团队开源项目MetaGPT OpenManus等总star数超过13万 [1] 创始人背景与理念 - 创始人吴承霖高中时期受哲学思考驱动 转向计算机领域追求"通用求解器"目标 [4][6][7] - 早期实践包括用自动机器学习构建金融交易机器人 大学阶段实现经济独立 [6] - 在华为期间推动核心产品贡献 参与Open vSwitch等开源项目 其母公司Nicira以12 6亿美元被收购 [8] 技术架构与产品定位 - MGX定位为自然语言编程平台 解决MetaGPT产品化问题 架构分为智能体操作系统 IDE 应用生产分发三层 [23][24][25] - 应用场景包括个人网站搭建 临时需求解决(如活动策划 数据分析) 未来可能取代固定APP模式 [27][28] - Benchmark显示MGX优化版得分90+ 显著高于竞品Bolt(20分)和Lovable(20分) [46][47] 开源与学术循环机制 - OpenManus由4名本科毕业生3小时内完成 体现团队学术循环效能 [3][14][40] - 学术循环依赖三大要素:批判性思维 内在驱动力 标准化流程(SOP) [12] - 开源被视为文明最大杠杆 通过原子化增量改进推动技术进步 [9][10][15] 行业趋势与竞争分析 - AI短期内将影响数据分析师 前端工程师等岗位 但不会颠覆大型软件公司 [11][54] - 自然语言编程可能使结构化思维取代特定语言技能成为编程核心 [54] - 对比Claude和DeepSeek开源模型 指出后者R1版本存在幻觉控制难题 [53] 团队管理与文化 - 组织架构极度扁平 无固定职级 决策由团队协商推进 [48][51] - 管理核心强调无权威文化 鼓励批判性思维 以"谁行谁上"为原则 [50][51] - 当前挑战在于人才稀缺 需高自驱力与批判性思维兼备成员 [56][57] 发展路线与规划 - Foundation Agents论文将定义几十项核心任务 目前完成5项 [55] - 面临组织带宽限制问题 需优化资源配置提升并发处理能力 [55] - 长期目标是通过代码和强化学习优化系统效果 打造最佳问题解决机器 [54]