Multi-Agent
搜索文档
中金:从速度到认知,AI时代的量化新生态
中金点睛· 2026-03-11 07:35
行业核心观点 - 量化投资行业竞争重心正从局部环节的单点技术优势(如速度、单模型)转向以AI为枢纽的系统性认知能力建设,行业处于向Quant 4.0时代演进的关键时期 [1][4][12] - 大语言模型(LLM)与多智能体(Multi-Agent)技术是驱动本轮变革的核心,它们正在重塑数据广度、模型深度和组织协作模式,赋予策略捕捉“认知Alpha”的能力 [1][5][48] - 未来,兼顾数据丰度与延迟容忍度的“中频区间”(分钟级至周度)将成为AI技术落地的主战场,而随着通用AI工具普及,平台与系统化能力将演变为行业基础设施,但可持续的超额收益最终将回归于机构独有的高质量数据、精细的组合管理及执行能力等深层积累 [9][25][51] 行业演进框架与阶段 - 行业演进可拆解为数据、模型与组织架构三条相互交织的主线 [13] - 从Quant 1.0到Quant 4.0的演进路径:Quant 1.0为经典多因子线性模型阶段;Quant 2.0为技术进阶阶段,引入价量技术类因子;Quant 3.0为机器学习与另类数据大规模应用阶段,但各环节相对独立;Quant 4.0为以多智能体协作为核心的“认知型”投研基建升级时代 [15][16][17][19] - Quant 4.0的核心特征是通过多智能体协作将投研流程拆解为标准化、可编辑的模块,旨在提升研究产能、迭代效率及系统的可追溯性,而非替代传统的机器学习模型 [4][19] 信息处理:LLM与RAG的基建价值 - 大语言模型(LLM)正改变另类数据的处理方式,凭借零样本学习能力,能从上百页公告中精准提取关键信息,边际成本大幅降低,并能理解上下文语境以捕捉管理层措辞的细微变化和预期差 [5][28] - 针对LLM的幻觉问题,检索增强生成(RAG)技术通过“检索-引用-生成”流程,实现了策略留痕和有据可查,成为连接LLM与策略落地的关键可靠基础设施 [5][29] - LLM与RAG的结合标志着量化策略开始具备获取“认知Alpha”的能力,部分缩小了量化研究与基本面研究在深度认知上的差距 [5][48] 因子挖掘:从数据挖掘到逻辑生成 - 传统因子挖掘面临人工产能不足与遗传规划(GP)解释性差的两难困境 [6][31] - LLM与Multi-Agent技术(如FactorMAD框架)相结合,通过引入“提案者”与“批判者”的对抗辩论机制,实现了从盲目算力穷举到逻辑驱动生成的转变,产出具备清晰经济学逻辑且更稳定的因子 [6][34][36] - 这种基于辩论的Multi-Agent架构使因子挖掘实现了从暴力搜索到认知博弈的跨越,产出的因子经过了模拟逻辑辩论,而不仅仅是历史数据拟合 [31][36] 组织架构升级:从流水线到认知型系统 - 过去的量化投研多采用单向串联的流水线架构,存在失效难归因的问题;端到端模型则存在“黑盒”风险 [7][38] - Multi-Agent架构本质上是将系统升级为具备认知分工的组织,模拟真实资管机构的模块化分工(如数据、研究、风控团队),将隐性的团队协作显性化和代码化 [7][39] - 更务实的Quant 4.0落地形态是混合架构:AI智能体负责特征提取、市场状态识别、流程闭环等认知型工作,而具体的因子打分、组合优化等仍由基础机器学习模型完成,既保留传统收益基本盘,又加入认知信息增量 [41][48] AI技术的前沿应用与创新 - 在预测侧,时序基础模型(TSFM)正向金融领域深度特化,通过将K线数据转化为Token来克服低信噪比难题,提升模型应对市场状态切换时的样本外泛化能力 [8][44] - TSFM通过跨资产、跨频率的大规模预训练提炼通用时序表征,具备强大的零样本学习与迁移学习能力,能应对数据稀疏的新金融工具或市场 [44][45] - 在决策侧,强化学习模型(RL)擅长处理序列决策任务,采用端到端模式,更可能优先落地于交易执行(优化冲击成本、滑点)和动态风控与仓位管理等约束清晰、反馈闭环明确的子问题 [46][47] 未来竞争格局与能力重估 - 随着通用AI工具(如Claude Cowork、OpenClaw)的成熟和普及,智能体工作流正加速向全行业外溢,这将有效降低中小机构的投研流程建设成本,提升行业“生产率” [22][25] - 然而,通用工具的普及更容易带来研究路径与策略的同质化,单模型的预测优势将趋于收敛,AI-Agent投研平台将可能成为Quant 4.0时代的行业基础设施 [9][25][51] - 系统化平台本身不构成终极护城河,未来更可持续的Alpha将回归并沉淀于量化机构独有的高质量私有数据储备、精细的组合管理与执行能力以及风险管理等多维度的深厚积累上 [9][25][52]
怎么做 Long-running Agents,Cursor、Anthropic 给了两种截然不同的思路
Founder Park· 2026-01-20 23:00
文章核心观点 当前AI Agent在独立、短时任务上表现良好,但执行复杂、长时任务仍面临挑战。Cursor和Anthropic分别提出了不同的工程实践方案:Cursor通过大规模并行运行多个具有角色分工的Agent来扩展项目规模;Anthropic则专注于解决单个Agent在跨越多个工作周期时的记忆连续性问题,通过双Agent方案和严格的工作流程来推进长时任务[3][4][27][29]。 Cursor的“多Agent并行协作”方案 - **目标与挑战**:旨在通过大规模并行运行成百上千个Agent来处理复杂、长时任务,如从零构建软件。核心挑战在于如何有效协调这些Agent,处理超过一百万行代码和数以万亿计的Token[8]。 - **协调机制的演进**: - **第一次尝试(扁平化协作与锁定机制)**:构建了完全扁平化的系统,Agent通过共享文件协调。但该方案失败,因锁机制导致吞吐量骤降(20个Agent仅相当于两三个的效率),系统脆弱,易因Agent崩溃或协调文件冲突而瘫痪[9][10][11]。 - **第二次尝试(乐观并发控制)**:采用乐观并发控制机制,Agent自由读取、认领任务并短暂锁定。此方案更稳健,但暴露了群体性“风险规避”问题,Agent倾向于执行细小任务,导致项目核心进展停滞[12][13][14]。 - **最终方案:引入角色分工的流水线体系**:摒弃扁平化结构,设立三个核心角色: - **规划者**:类似架构师,持续探索代码库、理解需求并派生任务,规划过程可并行化[21]。 - **工作者**:主力工程师,纯粹执行从任务池领取的单一任务,无需全局协调[21]。 - **裁判**:类似项目经理,定期评估进展并决定是否进入下一轮迭代[21]。 该体系解决了协调难题,能将项目规模扩展到前所未有的程度[15]。 - **实验验证与成果**: - **从零构建网页浏览器**:Agent团队运行近一周,在1,000个独立文件中编写了超过100万行代码,成功构建出基础浏览器。数百个工作者可同时向同一分支提交代码且冲突率极低[16][17]。 - **大型代码库原地迁移**:将大型项目前端框架从Solid迁移到React,耗时三周多,产生+266,000行新增和-193,000行删除的代码变更,并通过了持续集成系统检查[19][22]。 - **产品性能与功能优化**:Agent用Rust重写视频渲染模块,将渲染速度提升25倍,并增加了平滑缩放等新功能。该代码已被合并至主干即将上线[23]。 - **经验与教训**: - **模型选择至关重要**:GPT-5.2在长时间自主工作中表现更佳,能更好遵循指令、保持专注。不同模型擅长不同角色,例如GPT-5.2是比专门优化的GPT-5.1-Codex更优秀的规划者[24]。 - **简化系统设计**:许多改进源于“做减法”,例如移除了制造瓶颈的“集成者”角色。最好的系统往往比想象的更简单[24][25]。 - **结构需恰到好处**:结构太松散会导致冲突与偏离,太严密则系统脆弱。系统的绝大部分行为取决于prompt的精心编写[26]。 - **仍需进一步探索**:多Agent协调仍是难题,系统未达最优。例如,规划者应能自动唤醒,Agent存在运行时间过长问题,仍需定期重启以对抗目标偏离[26]。 Anthropic的“解决单个Agent记忆连续性”方案 - **核心思路**:专注于解决单个Agent在跨越多个有限上下文窗口工作时的“记忆连续性”问题,通过引入类似人类团队的分工协作机制,将复杂任务拆解并确保清晰交接[27][29][31]。 - **Agent在长任务中的主要问题**: - **一口气干太多**:试图一次性完成整个应用(如克隆claude.ai),导致代码混乱,给后续会话留下难以接手的半成品[33]。 - **过早宣布胜利**:项目仅完成一部分便停止工作[33]。 - **测试敷衍**:仅运行基础测试,未进行真实的端到端流程验证[33]。 这些问题的共同点是Agent缺乏全局目标认知和清晰的交接机制[30]。 - **双Agent方案设计**: - **第一步:初始化Agent**:仅在项目启动时运行,负责搭建完整的初始环境。其关键任务是将用户提示扩展为结构化的功能需求清单(JSON格式),例如在克隆claude.ai的示例中生成了超过200个功能描述。所有功能初始标记为“failing”,为后续工作提供清晰路线图[34][35][36][37][38]。 - **第二步:编码Agent**:在后续会话中接手工作,严格遵循“渐进式推进”原则,每次只完成一个功能并确保环境处于“干净状态”。其标准工作流程为:1) 理解现状(阅读进度文件和Git日志);2) 选择单一任务;3) 专注实现;4) 留下痕迹(提交代码并更新进度文件)[34][39][40][41]。 - **测试环节的改进**:为解决测试敷衍问题,为Agent配备浏览器自动化工具(如Puppeteer MCP),要求其像真实用户一样操作页面进行端到端验证。该方法大幅提升了功能验证的准确率,使Agent能自行定位和修复许多仅看代码无法发现的Bug[42][43][44][45][46]。 - **Agent“开工”标准流程**:每个编码Agent会话开始时,会按固定流程熟悉环境:运行pwd确认目录、阅读Git日志和进度文件、阅读功能清单、运行init.sh脚本启动服务器并运行基础测试,确保环境正常后再开始新工作[47][48][49][50]。 - **开放性问题**:未来是发展全能Agent还是由测试、质检等专家Agent组成的多Agent团队?当前为Web开发优化的方法能否推广到科学研究、金融建模等其他领域[53]。
迎接Agent爆发元年,七牛智能MaaS平台已成多模型调用“必选项”
格隆汇· 2026-01-19 11:46
公司核心产品与战略 - 七牛智能MaaS平台“AI大模型广场”全新开放 其定位为AI Native时代的开发底座 核心特性包括全场景覆盖的模型广场、极致兼容的API架构、前瞻性的Agent+MCP服务以及全栈式管理控制台 [1] - 平台的技术演进方向从单次往复对话转向由长序列、多步骤的智能体任务驱动 这导致平台模型调用更频繁、对上下文一致性要求更高 [1] - 平台技术趋势推动MaaS用户数量和单个用户token消耗量实现乘数级增长 [1] 公司运营与财务数据 - 自2025年MaaS平台推出以来 相关用户数快速放量突破18万 [2] - 截至2026年1月14日 七牛云平台注册用户总量已突破192万 最近几个月新增超过20万名开发者及企业用户 增速呈现非线性扩张 [2] - 2025年上半年财报显示 公司AI相关收入突破1.84亿元人民币 贡献了总收入的22.2% [2] 行业技术趋势与展望 - 2026年被资本市场普遍认为是多智能体推理的爆发元年 新工具层出不穷 生产范式倾向于更多步骤推理 [1] - 在多智能体任务场景下 多模型调度成为常态 MaaS平台由智能体任务驱动 [1]
关于 Multi-Agent 到底该不该做,Claude 和 Devin 吵起来了
Founder Park· 2025-06-16 22:16
多智能体系统核心观点 - Anthropic与Cognition两篇文章共同揭示了多智能体系统的适用场景与局限性:Anthropic强调多智能体在低依赖、可并行任务中的高效性(如研究任务),而Cognition指出高依赖、紧耦合任务(如AI Coding)目前不适合多智能体架构 [2][12][39] - 多智能体系统性能提升显著但成本高昂:Anthropic的测试显示多智能体系统比单智能体性能提升90.2%,但token消耗达普通聊天的15倍 [9][10] - 当前技术限制下,多智能体系统需满足三大条件:任务价值足够高、需要大量并行处理、信息量超出单个上下文窗口 [12][16] 多智能体架构设计 - 编排器-工作器模式为核心架构:主智能体负责协调,子智能体并行执行任务,通过动态搜索替代传统RAG的静态检索 [13][16][19] - 并行工具调用实现效率飞跃:引入两层并行化(主智能体同时启动3-5个子智能体,子智能体并行使用3+工具)使复杂查询研究时间缩短90% [25][26] - 上下文管理策略关键:采用外部内存存储关键信息、智能压缩机制防止溢出,子智能体输出直接写入文件系统减少token开销 [35][36] 多智能体适用场景 - 最佳应用领域:开放式研究任务(如跨领域软件开发、商业策略制定、学术研究),可覆盖信息量超出单智能体能力的广度型查询 [9][38] - 当前不适用场景:需要共享同一上下文的高依赖任务(如实时编码协调),LLM智能体尚无法有效处理任务分配与实时协调 [12][57] - 典型成功案例:Anthropic多智能体系统完成标普500公司董事会成员搜索等复杂研究任务,而单智能体系统失败 [9] 多智能体工程挑战 - 提示工程决定系统行为:需开发智能体心理模型,明确任务分配规则(简单查询1个智能体3-10次调用,复杂研究10+子智能体) [21][23] - 调试复杂度指数级增长:微小提示改动引发连锁反应,需建立模拟环境观察失败模式(如子智能体重复搜索、工具选择错误) [21][31] - 部署策略特殊:采用彩虹部署逐步迁移流量,避免中断运行中的智能体状态 [33] 多智能体评估方法 - 传统评估方法失效:需采用最终状态评估而非路径验证,LLM评判者规模化评估事实准确性、引用质量等维度 [27][28][29] - 人工测试不可替代:发现自动化评估遗漏的边缘情况(如SEO内容偏好),修正信息源选择偏差 [29] - 涌现行为需监控:智能体交互产生非预期行为,需追踪决策模式与交互结构 [30] AI Coding领域实践 - Cognition实践表明:2025年技术条件下,编程任务采用多智能体会导致系统脆弱,因决策分散且上下文共享不足 [57] - 单线程线性agent更可靠:Claude Code子agent仅回答明确定义问题,避免并行工作导致的矛盾输出 [55] - 上下文工程是核心:需压缩历史对话关键细节,微调专用模型管理长上下文 [53]
从Copilot到Agent:AI编程的范式革新
西部证券· 2025-03-12 19:16
行业投资评级 - 行业评级为超配 维持前次评级 [5] 核心观点 - AI Coding正在成为Agent商业化的突破口 编程领域的规则明确性为Agent应用提供了天然约束框架 编程环境的技术特性为Agent自纠错提供了理想试验场 编程原子化任务与大模型链式推理机制深度契合 [1][8] - 企业开发效率的刚需创造了明确付费意愿 AI编程领域已逐步形成"技术验证-产品迭代-商业变现"的完整闭环 [1][8] - AI大模型在编程中的应用发展分为"Copilot→Agent→Multi-Agent"三个阶段 目前各大厂商AI coding产品多处于第一阶段向第二阶段迈进的关键节点 [2][9] 技术发展三阶段 - 第一阶段LLM as Copilot:大模型作为Copilot辅助程序员完成任务 不改变软件工程的专业分工 [2][9] - 第二阶段LLM as Agent:Agent能够自主完成一部分任务 成为单一职能专家 自主使用工具完成预定任务 [2][9] - 第三阶段LLM as Multi-Agent:多智能体互相协作完成复杂任务 人类负责创意纠偏和确认工作 [2][9] 国际领先产品分析 - GitHub Copilot:2024年7月ARR达3亿美元 占GitHub整体收入增长的40% 拥有180万付费订阅用户 [13] 2025年2月推出Agent模式 自主执行能力显著提升 可实现自主迭代代码识别错误并自动修复 [15] - Cursor:2024年8月完成4亿美元A轮融资 2024年12月估值达25亿美元 2025年3月ARR可能已增长至1.5亿美元 估值或突破100亿美元 [17][18][19] - Devin:2024年4月估值达20亿美元 2024年12月全面开放 订阅费用为$500/月 客户包括年收入3亿美元的Ramp和年收入17亿美元的MongoDB [20][21] 国内主要产品进展 - 字节豆包MarsCode:2025年3月正式上线国内首个AI原生集成开发环境Trae 配置Doubao-1.5-pro模型 支持切换DeepSeek R1和V3模型 [22][23] - 百度文心快码Comate:公司80%工程师深度使用 代码采纳率达46% 新增代码生成占比29% 已升级至3.0版本 由Copilot模式升级为Agent模式 [26][27] - 阿里通义灵码:正式发布AI程序员 开发效率提升数十倍 生成速度最快达分钟级 能够自主执行任务拆解代码编写缺陷修复测试等全过程任务 [28][29] - 腾讯云AI代码助手:接入DeepSeek-R1满血版 代码生成准确率提升30%+ 支持函数级/模块级代码生成 [31] - 智谱CodeGeeX:截至2024年7月个人用户数量超100万 与英特尔合作发布AIPC版 可部署在端侧完成AI任务 [32][33] - 商汤代码小浣熊:采用2B+2C双轮驱动 C端分为个人免费版和49元升级收费版 B端企业标准版按899元/人/年收费 [34][35] - 艾普阳SnapDevelop:纯国产化低代码IDE 全面满足信创研发需求 集成ChatGPT服务海外用户 [36] - 普元信息:推出低代码Copilot模式 接入DeepSeek 32B和671B超大规模私有化模型 [37][38] 建议关注标的 - 商汤-W(已覆盖)卓易信息普元信息金现代科大国创等 [3]