OWL

搜索文档
「0天复刻Manus」的背后,这名95后技术人坚信:“通用Agent一定存在,Agent也有Scaling Law”| 万有引力
AI科技大本营· 2025-07-11 17:10
AI Agent技术发展 - Manus项目引爆AI Agent热潮,展示从语言理解向任务执行的演化能力[2] - 行业对Agent Scaling Law和通用Agent可行性存在争议,部分研究者认为技术进步将实现通用能力跨越[2] - OWL项目在GAIA Benchmark位列第一,是最强开源Agent之一,十天斩获1w+ Star[6][8] - CAMEL框架是全球首个多智能体框架,已有两年技术积累[6] - OWL项目构建初衷是为开发者提供开源可拓展基础框架,而非与Manus比拼产品化能力[8] 开源社区与技术迭代 - OWL项目上线后收到大量社区反馈,GitHub上关闭200+ Issue,微信群反馈达上千条[9] - 社区开发者积极贡献PR,改进UI/UX和交互体验[10] - OWL进行重要重构,平衡性能与成本控制,GAIA-58.18分支为性能最优版本[11] - 新增Terminal Tool Kit功能,支持Agent调用终端安装依赖库并执行代码[12] - CAMEL团队计划将40多种常用工具接入MCP Server,构建工具生态[31] 多智能体系统研究 - 在多智能体协作实验中,70%任务场景中双Agent协作效果优于单Agent[21] - OASIS项目支持100万Agent交互,开展社会模拟研究[22] - 探索利用Agent生成合成数据提升多智能体系统质量[23] - 多智能体系统优化涉及协作机制、任务调度、工具调用流程等多个维度[27] - 未来可能形成分工明确、组合灵活、成本可控的Agent生态[29] 行业协议与生态 - MCP协议简化Agent开发流程,提供统一接口调用外部工具[30][32] - Google推出A2A协议,侧重统一Agent间接入范式[34] - 协议价值取决于参与者数量和生态繁荣程度[34] - CAMEL团队同时支持MCP和A2A协议[35] 开发者经验与建议 - 建议开发者从模型底层机制入手学习Agent开发,而非直接使用抽象框架[38] - 使用AI Coding工具需进行代码审查,修改量约20%[44] - AI生成代码可能仅提供局部最优解,需关注全局结构[46] - 保持学习能力和辨别能力是应对AI快速迭代的关键[37]
论文秒变海报!开源框架PosterAgent一键生成顶会级学术Poster
量子位· 2025-06-03 15:59
学术海报生成工具PosterAgent - 核心功能是将22页论文一键转化为可编辑的PPT格式学术海报[2] - 相比GPT-4o生成效果更优,token使用量减少87%,成本仅0.0045美元[2] - 采用多智能体框架实现论文内容的多模态压缩和排版优化[18] 技术架构 - 包含解析器、规划器和绘制器-评论器三个核心组件[28] - 解析器提取论文关键文本和视觉内容生成结构化摘要库[28] - 规划器采用二叉树布局策略实现内容连贯排列[28] - 绘制器-评论器通过VLM反馈确保布局质量[28] 评估体系Paper2Poster - 首个学术海报评估标准,包含100对AI领域论文-海报数据[4][19] - 覆盖计算机视觉(19%)、自然语言处理(17%)等子领域[20] - 评估指标包含视觉质量、文本连贯性、整体评估和PaperQuiz四个维度[22][23] 性能表现 - 在视觉相似度上接近人类设计海报,VLM评分达3.72分[31] - PaperQuiz评估中PosterAgent变体始终取得最佳分数[32] - 基于Qwen-2.5的变体在原始准确率上优于GPT-4o版本[33] - 成本比OWL-4o降低60%-87%,每张海报最低0.0045美元[36] 应用场景 - 适用于CVPR、ACL等学术会议海报制作[67] - 潜在应用场景包括课程学习资料和商业PPT制作[65][66]
开发 Agent 简单,让它好用难;如果大模型成为流量入口;英伟达的推理故事丨AI 月报
晚点LatePost· 2025-04-03 14:20
全球AI重要趋势 - 开发Agent简单但做好难,底层模型、框架、工具生态正在成熟,OpenAI、Anthropic等公司提供了模型API,调用浏览器、文件、搜索等组件已经有开源标准 [5] - Anthropic推出的Model Context Protocol(MCP)正在被更多公司接纳,规范了Agent如何与外部工具对接,OpenAI也已加入 [5] - 大模型自身局限:幻觉严重、逻辑跳跃、长文本处理能力不足、模型训练数据不够新鲜等,仍需要RAG(检索增强生成)等技术兜底 [7] - 系统设计难:难以精确引导模型行为,执行复杂任务容易陷入死循环;任务链越长,误差累积越多 [7] - 持续测试模型如何使用工具,观察模型犯的错误,然后不断迭代改进 [7] Agent开发与模型优化 - OpenAI的Deep Research用强化学习的方式在o3的基础训练一个新模型,让它具备搜索的能力,而不是调用外部的工具、增加提示词或者编排任务 [8] - 目前大多数Agent产品都是工作流(Workflows)产品,它在垂直场景有价值,但要实现重大突破,必须重新设计模型 [8] - 基础模型迭代仍是Agent性能提升的重要影响因素,基础模型迭代的速度持续放缓,一方面来自于预训练Scaling Laws边际效应递减 [9] - 大模型的发展,会推动垂直头部应用厂商升级,而非颠覆垂直应用的市场格局 [9] - 与互联网与移动互联网时期一样,大模型推动的智能应用时代,正在从通用技术的发展向应用能力提升过渡 [9] 大模型成为流量入口 - OpenAI CEO山姆·阿尔特曼设想了一个OpenAI成为互联网世界入口的未来:用户用OpenAI账户,能带着使用额度、定制模型等,自由使用任何集成了OpenAI模型API的第三方服务 [10] - Adobe Analytics分析了美国电商零售网站超万亿次访问后发现:近四成人正在使用大模型辅助购物,过半人计划今年这么做 [11] - 许多电商或本地生活应用的核心收入都是站内的推荐广告,如果访问这些网站的是AI,而不是人,这些广告系统还能起效吗 [11] - 沃尔玛美国业务的首席技术官哈里·瓦苏德夫提出应对策略:开发自己的Agent与其他的Agent互动,推荐产品或提供更多商品信息 [11] 算力投资与英伟达 - 3月,算力投资的分歧持续,英伟达股价持续波动:月初10天下降13%,随后反弹,然后又跌了下来 [12] - 参数更小的模型性能提升,Google开源的270亿参数模型Gemma 3模型,在Chatbot Arena上得分超过老版DeepSeek-V3 [12] - 2024年9月以来,大模型应用带来的流量每两个月翻一番;去年末两个月,这类流量同比增长1200% [13] - 英伟达CEO黄仁勋讲了关于推理的新故事:能够推理的AI,将问题一步步分解,可能以几种不同的方式接近并选择最佳答案,生成的Token数量轻松达到百倍以上 [16] - 2026年将推出的Vera Rubin架构芯片,会在B系列基础上再次大幅提升——消耗相同的电,可以生成更多Token [16] 投融资风向 - 3月宣布的大额并购交易超过前三月总和,6起金额超过1亿美元的交易公开,另有多起仍在谈判中 [19] - 英伟达3.2亿美元收购合成数据公司Gretel、正在洽谈数亿美元收购阿里前副总裁贾扬清创办的AI推理服务公司Lepton AI [19] - 3月,融资超过5000万美元的AI公司达31家,比上月增加8家 [21] - 基础模型方向,头部公司融资惊人:OpenAI又融资400亿美元,累计融资额达到586亿美元,最新估值超过3000亿美元;Anthropic又融资35亿美元,累计融资额达到180亿美元,估值达到615亿美元 [21] - 人形机器人创业公司迎来融资高潮,单月出现7笔大额融资,创近年新高 [21] 大模型内部机制研究 - Anthropic发布两篇论文,尝试用"AI显微镜"技术追踪模型内部运作机制,研究自研的大模型Claude如何识别指令、组织语言、执行推理 [22] - Claude具备多语言能力,依赖一个共享的跨语言抽象机制,在不同语言中提问"小的反义词"时,Claude激活的是相同的"小"与"相反"概念 [24] - Claude在写诗时并非逐字生成到末尾才凑韵,而是提前规划,具备语言规划能力和灵活性,能够根据目标调整生成策略 [24] - Claude并非靠死记硬背或模拟标准算法,而是用并行路径完成计算:一条估算总和,另一条精确确定末位数字,最终合成答案 [24] - 大语言模型天生会有"幻觉",即使不知道答案也必须输出下一个词,Claude训练中学会在不确定准确答案时默认拒答 [24]
Manus引爆智能体复现潮!DeepSeek已被整合,项目挤满开源榜,海外大V排队求码
量子位· 2025-03-09 12:45
智能体赛道发展 - Manus的发布带动了整个智能体赛道的热度,引发开源复现潮和商业闭源产品的竞争[1] - 两个开源项目OpenManus和OWL在Manus发布当天就推出了复现代码[2] - OWL项目由国内CAMEL-AI团队开发,整合了DeepSeek模型到多智能体协作框架中[3][4] OWL项目表现 - OWL在GAIA基准测试验证集上平均分排名第3,在开源项目中排名第1[5] - Level 1分数达到81.13%,超过OpenAI的Deep Research,接近Manus的86.5%[6] - Level 2和Level 3分数仍有差距,但团队表示有信心提升[7] 开源社区动态 - GitHub热榜上Agent相关项目占据主导,MetaGPT和AutoGPT位列前排[8] - Camel-AI和OpenManus使用的代码库browser-use受到关注,金融、编程领域垂直智能体也备受瞩目[9] - MetaGPT项目获得50,504星标,AutoGPT项目获得172,643星标,显示社区高度关注[10] Manus海外扩张 - Manus通过发放邀请码成功打入海外市场,吸引大量用户试用并付费[13][14] - 海外用户反馈Manus在个人信息收集、网站部署、编程任务等方面表现优异[18][19][20][21] - 用户主要抱怨集中在速度较慢和邀请码短缺[23] GAIA基准测试 - GAIA测试由450+复杂问题组成,分为三个难度级别,评估智能体工具使用和自主性[25][26][27] - 人类在Level 2和Level 3的成功率分别为92%和87.3%,GPT-4得分仅为9.7%和0%[28] - Manus在Level 3分数达到57.7%,领先优势明显[29] 行业趋势 - GAIA基准测试正成为智能体产品的必争之地,类似ImageNet在深度学习时代的作用[24][32] - 行业从BERT时代的CLUE基准转向ChatGPT时代的MMLU和ChatBot Arena,现在聚焦GAIA[30][31] - 未来可能出现AgentArena智能体竞技场,进一步推动行业发展[32]