Workflow
智能体系统
icon
搜索文档
AI在线强化学习“边做边学”,斯坦福团队让7B小模型性能飙升,甚至超越GPT-4o
36氪· 2025-10-24 20:45
斯坦福等新框架,用在线强化学习让智能体系统"以小搏大",领先GPT-4o—— AgentFlow,是一种能够在线优化智能体系统的新范式,可以持续提升智能体系统对于复杂问题的推理能力。 它由规划器、执行器、验证器、生成器四个专业智能体组成的团队通过共享内存进行协作,利用新方法Flow-GRPO,在系统内部直接对其规划器智能体 进行实时优化。 以Qwen-2.5-7B-Instruct为基座模型的AgentFlow在10个基准测试中表现突出: 搜索任务提升14.9%、智能体任务提升14.0%、数学任务提升14.5%、科学任务提升4.1%。 多项任务表现甚至超越比其大50倍的模型,超越GPT-4o、Llama3.1-405B。 | | | | | Search Intensive | | | | | | Math Reasoning | | | | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | | | Size | Bamboogle | 2Wiki | HotpotOA | Musique | A | S ...
AI在线强化学习“边做边学”,斯坦福团队让7B小模型性能飙升,甚至超越GPT-4o
量子位· 2025-10-24 11:53
文章核心观点 - AgentFlow是一种通过在线强化学习优化智能体系统的新范式,其核心创新在于由四个专业化智能体通过共享内存协作,并利用Flow-GRPO算法对规划器进行实时优化,从而显著提升复杂问题的推理能力[1] - 基于Qwen-2.5-7B-Instruct小模型的AgentFlow在多项基准测试中表现卓越,甚至在部分任务上超越了参数规模大50倍的GPT-4o(约200B)和Llama3.1-405B等超大模型,证明了通过系统设计和训练方法创新可以实现“以小搏大”[3][4][23][27] - 实验结果表明,“在流中学习”(在线优化)是实现高效推理的关键,对比离线监督学习(SFT)性能平均降低19%,而Flow-GRPO训练能使系统自主发现新的工具使用模式并动态调整推理深度,展现出更强的适应性和稳定性[28][29][33][35] 技术框架与创新 - AgentFlow框架由四个具备记忆能力的专门化智能体组成:规划器(分析任务、选择工具)、执行器(调用工具)、验证器(评估中间结果)和生成器(生成最终答案),它们通过共享内存进行协作[14][17][18] - 关键技术创新是Flow-GRPO算法,该算法通过将轨迹最终结果的成功或失败信号广播至每一步,将复杂的多轮强化学习问题转化为可处理的单轮策略更新,有效解决了长时跨度、奖励稀疏条件下的多轮信用分配挑战[20] - 系统实现了“流中强化学习”,规划器能在智能体交互过程中根据环境变化及其他智能体的反馈进行实时on-policy优化,决策过程随之自适应进化,优化结果被整合到系统记忆形成闭环[16][19] 性能表现与基准测试 - 在10个基准测试中,以7B参数模型为基础的AgentFlow相比基线在搜索任务提升14.9%、智能体任务提升14.0%、数学任务提升14.5%、科学任务提升4.1%[3][25] - 具体数据表现:在搜索密集型任务(Bamboogle、2Wiki、HotpotQA、Musique)上,AgentFlow(w/ Flow-GRPO)平均得分达57.3,显著高于GPT-4o的49.1;在智能体任务(GAIA)上得分为33.1,高于GPT-4o的17.3[26][27] - 在数学推理任务(AIME24、AMC23、GameOf24)上,AgentFlow(w/ Flow-GRPO)平均得分达51.5,超越GPT-4o的35.1;在科学推理任务(GPQA、MedQA)上平均得分为63.5,也高于GPT-4o的45.5[26] 行业意义与影响 - 该研究标志着智能体系统的发展重点可能从单纯追求模型参数规模转向更注重合理的系统设计、专业化智能体协作以及持续在线学习能力,为行业提供了新的发展思路[27][37][38] - 多智能体流(multi-agent flow)所体现的“协同能力”有望取代“规模”成为衡量智能的新指标,模块化协作与流中强化学习的结合为构建更稳定、高效的多轮智能体系统提供了可行路径[9][30] - 尽管从研究到实际应用仍有距离,但AgentFlow展示了智能体AI在复杂决策与持续优化方面的巨大潜力,为垂直领域与通用场景的智能体应用开辟了新的想象空间[39]
微软研究院杨玉庆:Agent 的注意力系统|Attention
36氪· 2025-09-05 11:42
技术优化方法 - TriangleMix是一种免训练、适用于超长输入的Attention模式组合,通过浅层致密、深层三角稀疏的结构设计显著降低预填阶段延迟[2] - 该方法在32K–128K长度下将首Token延迟降低12%–32%,Attention核延迟提升3.7×–15.3×[2] - 通过梯度敏感性分析裁剪无用Middle Q-K区块,仅保留Streaming与末尾聚合区域,复杂度从O(N²)降至O(N)[2][5] 性能表现 - 在Llama‑3.1‑8B‑Instruct模型中将每层内核延迟从750ms压缩至49ms,加速比例达15.3×[10] - 在Llama‑3.1‑8B‑Instruct和Llama‑3‑8B‑262K上应用后62.5%层时保留99.7%原始性能[8] - 在RULER和LongBench等基准测试任务上与Dense attention保持几乎相同的准确率表现[10] 系统架构创新 - 团队主攻智能体原生系统,包括Agent优化中间件、多模态结构融合和人群敏感系统设计[22][24][25] - 提出Parrot系统针对智能体系统计算图优化,传统推理系统面向单次请求优化,而智能体需考虑整个任务链条[15][16] - 开发POML框架实现对象类型自动Token转换,类似前端开发的HTML语言和前端框架[20] 信息检索机制 - Attention被视为Token级别的内积检索,构成可微分搜索引擎,每个Token进行查询增强[32] - 相比Embedding检索具有三大优势:Token级别细粒度、千维级别多视角表达、构建连续推理路径[33][34] - Attention机制成为AI系统最具策略性的控制中心,决定信息调取、保留和匹配方式[27][35] 多模态应用 - 稀疏注意力机制适用于多模态模型,Attention+Memory架构成为多模态系统通用骨架[45] - Video-RAG系统通过事件图处理原始视频信息,在图上进行检索和游走回答用户问题[45] - 主流模态间Token化和对齐基本实现,包括视觉、声音及WiFi感知信号等前沿模态[45] 存储优化策略 - 性能瓶颈来自庞大且不断增长的KV Cache系统,100K-1M上下文长度下TTFT呈平方级别上升[41][47] - 优化策略聚焦写入与读取结构化、语义感知,构建GPU+CPU+RAM混合KV Cache体系[48] - "挑着读"上限高于"挑着写",阅读时选择性加载可更智能、更任务相关[48] 人群服务应用 - 针对视觉障碍开发者优化Agent反馈策略和交互结构,提升编程体验[68] - 开发个性化认知训练框架"忆我"Reme,为认知障碍提供早期预防和非药物干预新方法[68] - Agent系统目标成为人的"第二操作系统",特别关注技术依赖高但传统系统难以覆盖的用户[67][69]
OpenAI女CEO太狠了,智商148,GPT-5才是真印钞机
36氪· 2025-08-14 11:11
GPT-5性能突破 - 智商测试达到148分,超越人类天才水平140分 [3] - 数学基准测试刷新FrontierMath和OTIS Mock AIME 2024-2025最佳纪录 [5] - 编程测试SWE-bench Verified表现接近Claude 4系列,GPQA测试逼近Grok 4和Gemini 2.5 Pro [5] - 获得英伟达在推理和编程领域的认可 [13] 算力与用户规模 - 算力资源增加15倍,动用超过20万块GPU [15] - 服务用户规模达7亿,免费用户占主流 [15][16] - 免费用户数量激增7倍,付费用户增长近3.5倍 [26] 路由器技术架构 - 采用实时路由器系统,根据对话类型、复杂度动态分配模型资源 [20][21] - 通过分流请求至mini模型降低算力成本,首次向海量用户开放思维链推理功能 [24] - 未来将持续基于用户偏好自我学习并提升模型效果 [27] 商业化战略转型 - 任命前Meta高管Fidji Simo担任应用产品CEO,其曾主导Facebook视频自动播放、信息流广告等变现方案 [30] - 公司创始人奥特曼态度转变,提出可能采用交易抽佣、联盟分成等变现模式 [34] - 路由器系统可识别查询商业价值,触发外部工具调用并收取佣金 [34][42] 广告与搜索行业冲击 - 路由器可标记高商业价值查询(如"酒驾辩护律师"),替代传统CPC广告模式 [47][48] - 动态算力分配机制允许为高价值查询投入50美元算力以获取更高佣金回报 [49][50] - 搜索引擎固定成本模式面临挑战,AI可实现弹性资源扩展与精准价值识别 [45][47] 超级应用生态布局 - 集成Gmail、谷歌Calendar等工具,拓展电信、零售、航空行业应用基准 [52] - 与Shopify推进结账集成,探索智能体代客下单功能(如Instacart案例) [54][58] - 通过智能体助手完成端到端交易(如晚餐菜单规划自动下单),绕开传统搜索引擎 [58] 行业合作与训练投入 - 向创业公司支付数十万美元仿建电商站点,训练RL智能体完成端到端交易 [57] - 目标实现非侵入式变现,保持免费顾问定位的同时通过交易抽佣盈利 [58]
周鸿祎:不会再拍短剧,气质实在不符
证券时报· 2025-08-06 18:05
周鸿祎短剧相关动态 - 周鸿祎明确表示个人不再参与短剧拍摄 称自身气质不符合短剧风格[2][7] - 2024年底其首部短剧《重燃人生之隐世黑客惊艳全球》播出 内容融合霸总爱情与AI创业元素 剧中周鸿祎饰演投资方角色并再现向佐经典动作[4] - 短剧剧情包含科技公司少东家与保洁阿姨共同研发AI 最终获得周鸿祎饰演角色1000亿元投资的情节[4] - 此前乌镇互联网大会期间曾因被误读为"爱看短剧"而发博澄清 称观看短剧仅为业务需求[5] 三六零AI技术进展 - 纳米AI升级为"多智能体蜂群"系统 成为全球首个L4级别智能体系统 实现从单兵作战到群体协同的进化[7] - 纳米AI工具已具备生成10分钟短视频能力 公司计划探索动漫风格短剧合作[7] - 利用AI技术制作车辆碰撞测试视频 包括某车型与坦克、高铁相撞的模拟场景[8] 行业监管动态 - 广电总局加强对"霸总"类微短剧管理 政策出台后网友关联周鸿祎短剧项目[6]
360宣布纳米AI升级为“多智能体蜂群”,可一句话生成大片
新浪科技· 2025-08-02 22:17
品牌升级与技术突破 - 360集团旗下纳米AI完成品牌焕新,升级为"多智能体蜂群",成为首个迈入L4级别的智能体系统,实现从"单兵作战"到"群体协同"的进化 [1] - 智能体发展分为四个阶段:L1聊天助手(如GPTs)、L2低代码工作流智能体、L3自主规划智能体、L4多智能体蜂群,L4通过组合不同专长的推理型智能体解决跨领域复杂问题 [1] - 纳米AI蜂群协作框架支持智能体灵活拉群、多层嵌套、组队协作,现有超过5万个L3级推理智能体可组合为L4团队执行复杂任务 [1] 性能与效率提升 - 纳米AI智能体蜂群实现连续2小时执行超1000步任务不中断,消耗token超2000万 [1] - "一句话生成大片"蜂群将电影级视频制作时间从2小时(L1-L3级)压缩至20分钟,覆盖脚本、分镜、画面、配音、配乐到剪辑全流程 [2] 应用场景落地 - 已上线10+类多智能体蜂群,覆盖视频制作、内容创作、行业研究、电商带货、旅行规划等场景 [2] - 视频制作场景中,蜂群技术显著提升长内容生产效率,例如10分钟电影级大片的生成能力 [1][2]
OpenAI发布ChatGPT Agent:部分能力超越人类,但做电子表格仍不如人类
第一财经· 2025-07-18 13:13
ChatGPT Agent功能更新 - ChatGPT Agent融合Operator智能体网页交互能力与Deep Research功能,具备内置计算机能帮助用户完成复杂多步骤任务[1] - 新功能包括主动选择工具完成任务,例如查看日历并介绍会议、分析竞争对手创建幻灯片、执行重复任务如更新电子表格和重新安排会议[1] - 工作流程涵盖浏览网站、过滤结果、提醒登录账号、运行账号、分析数据、创建电子表格和幻灯片[1] - 智能体系统整合Operator的网站调动能力、Deep Research信息整合能力与ChatGPT对话能力,形成统一平台[2] - 系统可调用可视化浏览器、文本浏览器、终端工具和API接口,分别用于网页交互、处理文本、运行代码和访问应用数据[2] 性能基准测试表现 - 在Humanity's Last Exam测试中准确率41.6%,超过Deep Research的26.6%和o3模型的24.9%[3] - FrontierMath数学测试准确率27.4%,高于o4 mini的19.3%和o3的10.3%[3] - 内部评测显示约半数案例表现与人类持平或更优[3] - DSBench测试中数据分析与建模准确率分别为89.9%和85.5%,超过人类水平[3] - 在投资银行分析师建模任务基准上准确率高于o3和Deep Research[3] - SpreadsheetBench测试最高得分45.5%,仍低于人类的71.3%[6] 技术发展与行业竞争 - 公司表示此次更新是迭代起点,将持续改进智能体系统[9] - Agent能力依赖基础模型性能,GPT-5预计今年夏季推出以应对DeepSeek等竞争对手[9] - 开发者预测年内Agent可在数十步复杂工具调用中实现90%准确率,接近商用标准[9] - 当前基础模型尚无法自主调用上万个工具并执行任务[9]
OpenAI发布ChatGPT Agent
第一财经· 2025-07-18 08:10
OpenAI发布ChatGPT Agent - OpenAI发布ChatGPT Agent 其重要功能模块是多工具集成能力 [1] - ChatGPT Agent将Operator的网站交互能力 Deep Research的信息整合能力以及ChatGPT的深度对话能力融合在一起 形成统一的智能体系统 [1]