多智能体协作
搜索文档
告别昂贵账单,Token直降68%,多智能体动态协作编程来了
机器之心· 2026-04-05 12:34
行业背景与现有挑战 - 软件开发范式正从“人写代码”转向“人指挥智能体写代码”,以Claude Code、OpenClaw为代表的系统让智能体能够自主完成编码、调试等完整任务流程 [2] - 面对系统级开发或竞赛级算法等复杂问题,单一模型能力边界明显,多智能体协作成为主流范式 [2] - 现有主流方法存在两类典型路径:一类如Claude Code的Agent Teams,通过并行调用多个模型提升能力,但带来极高的Token成本;另一类如OpenClaw,通过技能组合与流程编排实现多智能体管理,工程上更可控 [2] - 现有方法的协作结构大多依赖预定义规则或静态流程,解决的是“如何组织调用”,而非“如何根据任务动态调整协作方式”,导致智能体冗余通讯与大量Token消耗,最终给用户带来极高的自主编程成本 [3] 核心解决方案:AgentConductor框架 - 上海交通大学i-WiN团队提出多智能体框架AgentConductor,通过引入一个经过强化学习训练的3B参数指挥智能体,从根本上解决动态协作问题 [3] - AgentConductor会先评估任务难度,并生成一张以YAML表示的交互拓扑图,使简单任务使用轻量团队,复杂任务使用更复杂的交互图,实现能力与成本的自适应匹配 [3] - AgentConductor并非一次性规划,当生成代码运行失败时,指挥智能体会根据环境反馈的错误信息,结合历史记忆,对拓扑进行端到端重新生成,从而探索新的协作形式 [5] - 该方法在显著提升编码准确率(+14.6%)的同时,将Token成本降低了68% [5] 核心特色与方法 - **基于YAML的新型多智能体交互图结构**:使用YAML结构化表示交互图,使其既具备可读性,又支持程序化校验与约束,并可由大模型直接生成,便于理解与落地 [11][12] - **创新的交互形式**:融合多种拓扑优势,支持层内并行和跨层通讯,且每个智能体可任意链接之前的历史节点,在提升表达能力的同时避免不必要的通信开销 [13] - **两阶段训练范式**:采用监督微调(SFT)和基于GRPO的多轮端到端Agentic强化学习训练,仅训练一个指挥智能体 [15] - **SFT阶段**:基于GPT-4o生成的4,500个高质量拓扑样本(覆盖三档难度),赋予基础模型拓扑先验 [15] - **强化学习阶段**:将环境反馈的代码报错和多轮的拓扑文本一起作为轨迹用于智能体的强化学习训练,基于GRPO算法优化模型的拓扑生成策略以最大化复合奖励,最终实现低Token成本的高质量代码生成 [15] - **拓扑密度评估函数**:为实现任务自适应,将问题分成三档难度,并根据从Token成本到拓扑密度的形式化映射,提出了拓扑密度评估函数并作为奖励函数一部分,综合刻画节点数、边密度与图深度对通信成本的影响 [17] - **通信成本形式化**:多智能体系统的平均通信成本可形式化为 C = m(1 + |V| + (2|E|/|V|) + d),其中d为图深度,m为提示词最大长度 [18] 实验结果与性能 - 在三个竞赛级(APPS, LiveCodeBench, CodeContests)与两个基础代码数据集(HumanEval, MBPP)上评估了AgentConductor(基于Qwen-2.5-3B-Instruct模型) [21] - 在APPS数据集上,AgentConductor(3B)的pass@1准确率达到58.8(±0.3),显著超越所有基线方法 [22] - 在基础代码生成任务上,AgentConductor在HumanEval和MBPP上的平均准确率达到96.3(±0.2) [22] - 在成本方面,AgentConductor在APPS数据集上将Completion Token消耗降低至79,800,相比基线减少了最多68% [22][23] - 系统展现出细粒度难度适配能力:在easy任务上使用极简拓扑(平均3–4节点),在hard任务上自动扩展至8–10节点,而多数基线无论难度均维持固定密度 [23] 行业意义与范式转变 - AgentConductor证明,智能协作的关键不在于智能体数量,更在于结构的适应性,标志着多智能体研究从“静态工作流”迈向“动态生态系统” [24] - 该框架代表了一种新范式:将多智能体协作视为可学习、可演化的结构化决策过程 [24] - 通过将任务难度、执行反馈与通信成本统一纳入强化学习框架,实现了准确率与效率的协同提升 [24] - 这项工作在国际AI社区(X)引发广泛关注,被知名AI分享博主DAIR.AI当日置顶宣传并评为2026年2月23日–3月1日Top AI Papers [8]
单张显卡跑出15倍推理速度,aiX-apply-4B小模型加速企业AI研发落地
量子位· 2026-03-27 15:00
文章核心观点 - 硅心科技发布了一款专为“代码变更应用”场景设计的轻量级模型aiX-apply-4B,其在特定场景下以极低的算力成本实现了超越千亿级通用大模型的性能,这折射出产业对在有限算力下实现高效、精准AI赋能的真实需求[1][2][3] - 面对企业私有化部署中算力有限且宝贵的核心挑战,行业需要从卷参数转向“场景定义模型”,通过“大模型+小模型”的协同架构,让算力得到分层和最大化利用[4][8][10][21] 产品发布与性能表现 - 硅心科技于3月25日发布aiX-apply-4B模型,专为代码变更应用场景设计[2] - 在覆盖20多种编程语言及Markdown等文件格式的1600余条测试集上,该模型平均准确率达到93.8%,超越了同量级Qwen3-4B模型62.6%的准确率,并与参数规模大一百多倍的千亿级模型DeepSeek-V3.2的92.5%准确率比肩[2][13] - 在推理效率上,该模型引入自适应投机采样技术,推理速度每秒可达2000 tokens,在单张RTX 4090消费级显卡上即可运行[15] - 综合对比,在同一任务场景下,aiX-apply-4B的算力成本约为DeepSeek-V3.2的5%,推理速度提升15倍[3][16] 行业背景与核心挑战 - 随着OpenClaw等智能体框架普及,企业AI应用走向多智能体协作,完成一个复杂任务往往需要10到50次模型调用,Token消耗达到传统模式的数倍甚至数十倍,加剧了企业算力压力[4][5] - 对于金融、通信、能源、航天等关键领域企业,私有化部署的算力资源有限且宝贵,如何控制算力成本成为核心挑战[6][8] - 公有云模式无法满足数据安全需求,私有化部署千亿/万亿级大模型则成本高昂且易导致算力空转浪费[9] - 行业亟待解决的核心问题是如何用有限算力实现最优配置,让算力精准投入到最需要的研发场景中[10] 公司解决方案与产品理念 - 硅心科技推出aiX-apply-4B模型,旨在解决企业私有化部署中算力有限的痛点,服务于代码变更应用这一具体场景[11] - 该场景要求将模型生成的代码片段精准、无损地应用到原始文件,并严格保持格式与上下文一致性[11] - 公司基于真实企业代码提交记录构建训练数据集,采用高性能强化学习框架训练,并考虑了各种边界情况[13] - 模型展现出良好的泛化能力,能应对超长代码文件编辑和处理冷门编程语言[17] - 公司早在2024年就推出了7B参数的代码补全小模型,目前已构建覆盖多个研发关键环节的小模型矩阵[21] - 公司创新提出“大模型+小模型”协同架构:通用大模型(“通才”)负责复杂意图理解和逻辑分析;垂直场景小模型(“专才”)承接高频工程任务,实现快速精准执行[21] - 该架构可实现企业有限算力的分层利用,让小模型高效完成专项任务,节约算力用于大模型的复杂推理,从而充分释放有限算力的价值[21]
aiX-apply-4B逆袭DeepSeek-V3.2!aiXcoder发布代码变更应用模型,单卡推理提效15倍
机器之心· 2026-03-27 14:23
文章核心观点 - 硅心科技发布了一款专注于“代码变更应用”场景的轻量级模型aiX-apply-4B,该模型以4B参数在特定任务上实现了超越千亿级通用大模型的性能,同时大幅降低了算力成本和部署门槛,旨在解决企业在私有化部署和有限算力背景下实现AI高效赋能软件开发的核心挑战 [1][2][3] - 行业正从单次模型调用转向多智能体协作,导致企业算力压力剧增,尤其是对数据安全要求高的关键领域企业,亟需在私有化部署中实现算力的最优配置 [4] - 公司提出了“场景定义模型”理念和“大模型+小模型”协同架构,通过构建覆盖研发关键环节的小模型矩阵,让通用大模型与垂直小模型各司其职,从而最大化释放企业有限算力的价值 [14][15] 产品发布与性能表现 - 公司于3月25日发布aiX-apply-4B模型,专为“代码变更应用”场景设计 [2] - 在覆盖20多种主流编程语言及Markdown等文件格式的1600余条测试集上,该模型平均准确率达到93.8%,超越Qwen3-4B基座模型62.6%的准确度,并与千亿级大模型DeepSeek-V3.2(准确率92.5%)比肩 [2][10] - 在推理效率上,该模型推理速度每秒可达2000 tokens,在单张RTX 4090消费级显卡上即可运行;对比模型DeepSeek-V3.2则需要八卡H200高端集群部署 [12] - 综合算力成本与推理速度,aiX-apply-4B仅用DeepSeek-V3.2约5%的算力成本,实现了15倍的效率提升 [2][12] - 该模型展现出良好的范式泛化能力,在超长代码文件编辑及训练数据中占比极低的编程语言场景下均保持准确和稳定 [12] 行业背景与市场需求 - 随着OpenClaw等智能体框架普及,企业AI应用走向多智能体协作,复杂任务需要10到50次模型调用,并发场景下的Token消耗是传统模式的数倍甚至数十倍,加剧了企业算力压力 [4] - 对于金融、通信、能源、航天等关键领域企业,私有化部署的算力有限且宝贵,额外模型调用会消耗紧张资源、推高延迟并挤占并发能力 [4] - 公有云“烧”Token的模式无法满足企业数据安全需求,而私有化部署千亿/万亿级大模型成本高昂且易导致算力空转浪费 [4] - 行业核心问题是如何将有限算力实现最优配置,让算力精准投入到最需要的研发场景中 [4] 产品设计理念与技术创新 - 产品设计源于企业研发算力有限的现实背景,旨在解决“代码变更应用”场景的核心挑战:将模型生成的不规整代码片段精准、无损地应用到原始文件中,并严格保持格式与上下文一致性 [5] - 模型训练采用高质量专属数据集,数据源自真实企业代码提交记录,并通过一致性审计机制确保“代码片段”与“变更结果”间存在绝对确定的因果关系 [8] - 采用训练与评测一体化的闭环设计,基于高性能强化学习框架,结合规则化奖励机制进行“生成-反馈-修正”的在线学习,以对齐工程约束 [8] - 设定了严格的工程化约束,包括非副作用约束(仅修改指定区域)和安全失败策略(无法准确定位时输出空结果),以保证代码合并过程高度可控 [9] - 引入自适应投机采样技术,极大压缩了端到端延迟 [12] 公司战略与产品矩阵 - aiX-apply-4B并非公司首款研发场景小模型,早在2024年就已推出参数量为7B的代码补全小模型 [15] - 公司基于“场景定义模型”理念,已构建起覆盖多个研发关键环节的小模型矩阵 [15] - 公司创新提出“大模型+小模型”协同架构:通用大模型聚焦复杂意图理解、代码逻辑分析等深度推理工作;垂直场景小模型则承接高频工程任务,实现快速精准执行 [15] - 该架构可实现企业有限算力的分层利用,小模型高效完成专项任务以节约算力,从而支持大模型进行复杂推理,避免高端算力浪费,充分释放算力价值 [15]
报告征集 | 2026年中国银行业智能体发展研究报告
艾瑞咨询· 2026-03-20 08:08
研究背景与核心观点 - 智能体技术是大模型商业化落地的关键形态,正在重构银行服务与运营模式,成为银行业数智化转型的核心驱动力 [2] - 智能体已逐步渗透至零售金融、公司金融、风险管理、运营管理等银行核心领域 [2] - 多智能体协作、行业垂类智能体等创新方向正在加速落地 [2] - 尽管面临技术稳定性、合规风控、组织适配等挑战,但技术迭代与业务需求的深度融合已展现显著价值 [2] - 随着大模型能力持续进化、监管规则逐步明晰,银行智能体有望在个性化财富管理、实时风险预警、跨场景业务协同等领域打开新增长空间,驱动银行业向智能化、生态化的高阶形态发展 [2] 报告研究内容与结构 - 报告将划分银行智能体发展阶段,结合专家访谈、公开数据与测算模型分析落地规模及特征 [4] - 报告将梳理银行智能体落地场景图谱并分析应用价值,同时结合问卷调研明确行业落地难点 [4] - 报告将明确智能体在银行业的落地框架,分析各环节的核心需求与执行重点,为行业从业者明晰落地实践路径 [5] - 报告将为厂商梳理银行业的实际需求与落地难点,最终形成专业的落地参考体系 [5] - 报告将研判银行智能体行业未来发展趋势并进行解读,说明其合理性与重要性,为行业机构布局提供专业参考 [6] - 报告将选取行业内表现突出、具备创新特征的银行及厂商案例,拆解其核心业务场景、解决方案与实现价值,提炼可复用的实践经验 [7] - 报告将邀请业内专家研讨行业趋势,提炼核心观点并以“专家名片 + 专家观点”形式呈现,搭建行业交流平台 [8] 报告时间规划 - 报告选题研究阶段为2026年2月 [14] - 报告大纲制定阶段为2026年3月 [14] - 厂商征集时间为2026年3月20日至2026年4月20日 [14] - 企业访谈与市场调研在2026年3月至4月进行 [14] - 报告计划于2026年第二季度发布 [14] 参与价值与方式 - 参与企业有机会入选报告典型案例与专家之声展示,提升品牌知名度和行业影响力 [10] - 报告将通过艾瑞网官网和艾瑞咨询公众号发布,并有多家链接媒体渠道传播 [10] - 参与企业有机会受邀参加艾瑞在金融智能体领域的线上、线下活动,与业内甲方、行业专家、投资机构等进行深度交流 [11] - 本次案例与专家征集自即日起,截至4月20日 [13]
OpenClaw中国行北京站落幕,3万人围观养虾,本周12城活动继续
AI前线· 2026-03-16 18:42
OpenClaw中国行北京站活动概况 - 活动于2026年3月21日在北京望京科技园举办,是OpenClaw中国行的首站[3] - 现场吸引了近200名AI开发者参与,其中56位开发者现场成功装机,直播间有3万多人次在线围观[4][9] - 活动核心承诺是让参与者“带一台电脑来,30分钟跑通你的第一个AI应用”,现场装机者年龄跨度从11岁到65岁[7] OpenClaw的生态价值与行业影响 - OpenClaw的最大价值在于让AI技术民主化,变得人人可用,降低了普通人进入AI世界的门槛[14] - 该技术带来了四大革命:入口革命(聊天界面即操作界面)、空间革命(上下文可经营数千轮对话)、灵魂革命(心跳机制可主动发起任务)、生态革命(开源和技能生态)[25] - 投资人视角认为,AI正在取代重复性工作,但人类的认知、判断和连接能力仍是护城河,未来趋势是“AI负责干,人负责想”[31][38] 个人与开发者应用实践 - 开发者通过创建“灵魂Markdown文件”记录AI身份设定与记忆要点,以解决AI的“失忆”和“幻觉”问题[17] - 采用“记忆脱水”机制对对话记录进行压缩,仅保留重要信息,以降低token消耗[19] - 通过开发“小猫巴士”(catbus)轻量级通信总线,实现多智能体(龙虾)的协作,构建低成本AI工作流[19] 企业级应用与工程化落地 - 企业应用强调数字员工需“懂规矩”(明确行为边界与安全)和“带工牌”(核算ROI,考核产出)[27] - 分享了“飞书+OpenClaw”的案例:AI可自动汇总同事OKR生成周报,或学习公司知识库为新员工提供7×24小时答疑[27] - 指出了企业应用需面对的七大陷阱:记忆失真、技能不可控、token成本失控、安全隐患、评估体系缺失、资源争夺、幻觉误判[21] 技术优化与成本控制策略 - 针对记忆失真,建议构建“渐进式记忆系统”,通过摘要、分层、索引方式让AI关注关键信息[23] - 针对技能不可控,提出“skills工作流闭环”,通过搜索、审核、创建、组合流程来标准化工作流[23] - 为控制token成本,推荐使用支持KV Cache的模型,通过缓存系统提示词和常用上下文,可将token消耗降低50%以上[23] 社区反馈与开发者生态 - 开放麦环节反映了开发者真实体验,包括使用cloud code后流程变顺的积极反馈,以及装机调试困难、AI表现不稳定的吐槽[39] - 活动延伸至职业发展与招聘,有创业者现场寻找AI赛道伙伴,也有具身智能团队发布招聘信息[39] - 社区强调在AI时代,将技术讲清楚的能力与技术本身同等重要[39] 全国推广与生态建设计划 - OpenClaw中国行将在本周末(3月21-22日)同时登陆杭州、青岛、苏州、成都、深圳、广州、南京、济南、上海、武汉、厦门、北京共12座城市[43] - 活动正公开征集OpenClaw分享嘉宾、创业项目展示以及装机志愿者,以壮大社区[44][51] - 生态合作伙伴包括极客邦科技旗下多个平台(InfoQ、极客时间等)、腾讯云、以及各地开发者社区与商会[45]
马斯克Grok 4.20突袭上线!4个AI开会互怼,47%实盘暴击GPT-5
搜狐财经· 2026-02-18 20:00
产品发布与核心特性 - 马斯克旗下xAI公司于近期无预警发布了Grok 4.20 Beta版本,其核心创新在于采用了多智能体协作模式,用户提问时会触发四个具有不同角色和专长的AI智能体进行实时“圆桌会议”式辩论,最终由队长“Grok”整合输出答案[2][24][25] - 该产品是xAI被SpaceX以1.25万亿美元估值收购后发布的首个AI产品,具有重要的战略宣示意义[20][21] - Grok 4.20将多智能体协作功能直接集成到普通聊天界面中,并以近乎免费的形式向大众用户开放,实现了技术范式的转变,从传统的单一模型输出转变为多智能体协作[22][35] 智能体角色与协作机制 - 团队由四个分工明确的智能体组成:“Grok”作为队长负责统筹整合,追求“有用、真实、有趣”的答案;“Harper”是研究与深度验证专家,负责事实核查与数据验证;“Benjamin”是深入分析与逻辑推理专家,擅长复杂问题拆解与漏洞检查;“Lucas”是分析与工具执行专家,负责将抽象问题转化为可执行的计算和实证[27][28] - 四个智能体在用户提问后同时启动,从各自专业视角分析问题,并在内部进行实时讨论、互相质疑与纠错,最终形成一份经过内部辩论与验证的综合结论[29][41] - 该协作机制在单次对话的超大上下文窗口内,完成了一套完整的“多人评审”流程[32] 性能表现与实测案例 - 在Alpha Arena举办的AI实盘炒股大赛中,Grok 4.20的早期版本是32个参赛AI实例中唯一盈利的模型,平均回报率为+10.17%,账户价值达到11,017美元,其中最成功的单个实例回报率高达47%[18][19] - 同场比赛中,其他主要竞争对手表现不佳:GPT-5.1回报率为-12.09%,Gemini-3-Pro回报率为-45.06%,Claude-Sonnet-4-5回报率为-50.93%[19] - 在Vending Bench自动售货机运营测试中,Grok 4.20击败了GPT-5,销售额领先1,100美元[20] - 用户实测显示,Grok 4.20能在1分20秒内编写出可玩的俄罗斯方块游戏,并能构建人工生命模拟器[9][12] - 该模型在医疗分析方面表现出色,能够解读血检报告和核磁共振片子,并将专业医学术语翻译成通俗语言[16] 行业趋势与竞争格局 - 多智能体协作已成为2026年AI竞争的核心战场,谷歌、Anthropic、月之暗面等公司均已布局类似技术[33][34] - 与竞争对手相比,Grok 4.20的“圆桌会议”模式更追求透明和共识,而如Kimi的“Agent集群”等方案则更侧重于规模和效率[35][36] - 此次发布标志着AI正从第二代“助手”向第三代“团队”演进,其特点是能够协作、自省和互相纠错,通过内部辩论和验证来提供更接近群体智慧的结论[40][42][45]
王慧文又招呼人创业了,但再做一个OpenClaw并不现实
虎嗅APP· 2026-02-13 17:52
文章核心观点 - OpenClaw的病毒式传播标志着“AI to AI”多智能体协作时代的开启,这彻底释放了AI的生产力,并将颠覆现有互联网的连接与交互方式[4][6][7] - 市场共识认为,单纯模仿OpenClaw或进行简单的“软件AI化”改造的创业路径已无机会,真正的机遇在于利用这一新范式对现有应用进行彻底重构,并催生全新的商业模式和硬件需求[8][9][10] - 随着AI智能体应用的爆发,弹性算力需求将呈指数级增长,同时硬件生态格局可能生变,CPU战略地位回归,AMD等非英伟达生态可能迎来新机会[18][24][25] OpenClaw的现象与影响 - OpenClaw项目在短时间内获得巨大关注,其Github Star数量突破14万,单周访问量超过200万[4] - 基于OpenClaw构建的应用(如仅允许AI发帖的社交网站Moltbook、AI众包平台Rent-a-Human)进一步放大了其可能性,展示了“AI雇佣人类”的未来场景[4] - “AI to AI”的多线程交互模式,相比传统“人机单线程对话”是生产力的根本性释放,将颠覆一切互联网时代的连接方式[6][7][10] 被堵死的创业与投资路径 - 围绕“人与AI Agent互动”的AI化改造路径(如通过自然语言对话做表格、分析、剪辑视频)已走到尽头,OpenClaw的自主执行和扩展能力将碾压这类应用[10] - 初创企业再做一个类似OpenClaw的商业公司成功概率极低,因为OpenClaw的崛起是自下而上的社区行为,而商业公司自上而下的推广难以与之竞争[11] - 头部大厂或可凭借数亿美金、千人团队及数十亿美金战略储备与OpenClaw艰难一战,但这并非普通初创企业能具备的条件[12] 被放大的新机会 - **多智能体协作**:OpenClaw天然适合多智能体协作,Agent可根据业务链条需求自主开发其他Agent[14] - **安全需求**:由于OpenClaw具有系统级权限,安全威胁的检测、预防、治理以及权限界定变得至关重要[14] - **社交与协作软件**:用户依赖聊天软件(如Telegram、WhatsApp、Discord等)与OpenClaw交互,这些高频软件的作用将进一步加强[14] - **应用重构**:现在所有的互联网应用都值得被AI重做一遍,例如AI化的美团、小红书,甚至领英可能被彻底颠覆,未来将是个人AI分身之间的高效匹配[15][16] - **物理世界连接**:OpenClaw有望成为个人或家庭的控制中心,控制家电等,推动消费级AI硬件蓬勃发展,并可能实现硬件间的群体智能[23] 弹性算力需求暴涨 - 算力需求呈现指数级增长,某弹性算力提供商在2024年所见最大客户需求约为10张GPU卡,2025年初为不到100卡,而到2025年底客户普遍已部署超过2000张卡[18] - Agent to Agent模式的出现将使算力需求被翻倍拉升[18] - 应用爆发导致算力需求波动性极大,例如Rent-a-Human上线一天即产生50万访问,拥有39个带支付能力的AI和23000人在线接单,初创公司为峰值购买GPU不经济[19] - 弹性算力提供商采用类似“算力滴滴”的商业模式,整合闲置算力资源,实现算力需求的“追峰填谷”,按秒结算,首次解决了弹性、稳定、低价无法并存的难题[19] - 面对春节及之后的算力暴涨预期,相关公司已定下翻倍营收的目标,并可能超额完成[20][21] 硬件生态的全新机会与潜在变局 - OpenClaw类产品在本地部署时,对硬件的挑战从单纯算力峰值转向对显存容量、内存带宽及系统兼容性的高要求[24] - 在此趋势下,CPU的战略地位回归,因为Agent需要深入操作系统底层与各类软件交互,而x86架构(如Intel/AMD)拥有最成熟的软件生态(Linux/Windows)[24] - 在推理环节,英伟达的CUDA并非技术刚需,这为其他厂商带来机会[25] - AMD凭借x86原生兼容性、不逊色的推理性能及价格优势,可能在端侧推理市场迎来“复兴时刻”,围绕AMD生态的创业机会将打开[25]
天选Windows打工AI来了!实测完Claude Cowork国产版:超顶
量子位· 2026-02-04 09:01
文章核心观点 - 昆仑天工推出的Skywork桌面版是一款国产多智能体桌面AI工具,其核心是通过“持久上下文”等技术重构本地工作流,实现跨格式、高效率、高隐私的智能办公协作,展现了国产AI在端侧多智能体赛道上的创新实力,并可能成为智能体时代桌面超级入口的有力竞争者[1][50][70][84] 产品功能与特色 - 支持模型自由切换,集成了Claude 4.5和Gemini 3等顶尖模型,用户可手动切换或启用“Auto”模式由系统推荐[5][7] - 集成了100+个高频、精炼的Skills(智能体技能),涵盖Office生成、网页生成、图片视频生成等类型,支持手动选择和智能推荐[8][9] - 引入了“持久上下文”功能,将本地文件夹作为持续的上下文窗口,AI能全景掌握项目环境,无需用户反复上传文件[52][53][58] - 采用“本地推理+权限隔离”机制,文件处理在本地完成,无需上传云端,保障了用户隐私和数据安全[2][62][64] - 具备可持续进化的工作记忆机制,能结合用户偏好长期记忆工作方式,实现“越用越懂你”[69] 实测性能表现 - 在文件整理任务中表现出色,能基于语义理解对内容进行精准归类,例如整理10篇命名混乱的AI论文并提取正确标题重命名,用时仅40秒左右[15][17][22][23] - 能基于本地杂乱素材(Doc、PDF、Excel、截图)自动生成内容完善、设计感强的PPT,例如生成一份15-20页的“2025十大AI趋势预测”PPT[26][28][31] - 具备跨格式办公自动化能力,可在Doc、Excel、PPT、Website等格式间流动,例如从需求文档(Doc)自动提取信息生成Excel任务跟踪表[32][34][35] - 能利用多模态能力生成功能完整的网站,例如根据文档和图片生成一个具备登录、打卡、排行榜等功能的户外徒步网站[40][41][47] - 任务完成率高,实测的几个任务基本都是一次成功[48] - 生成速度快,简单任务一分钟内完成,复杂任务如PPT几分钟搞定,官方称借助Gemini模型+自动模式,可将Claude Cowork需20分钟的任务压缩到10分钟内[49] 行业背景与战略意义 - 行业共识认为,AI竞争的下半场关键在于如何“编排”AI,让多智能体协作解决复杂问题,多智能体协作被视为AI胜负手[77][78] - 电脑桌面被视为多智能体时代的关键超级入口和主战场,正从操作系统的被动界面演变为“Agent OS”,战略价值被重新定义[72][81][82] - 国内外科技巨头均看好并布局多智能体领域,英伟达CEO黄仁勋曾表示AI Agents有望成为下一个机器人级别的万亿级产业[80] - Skywork桌面版的出现是国产AI创新力量在端侧多智能体赛道的一次集中展示,其定价(Basic会员19.9美元/月,Plus/Max会员49.99美元/月)相比Claude Cowork(Basic会员20美元/月,Plus/Max至少100美元/月)更具性价比[86][87]
别再死磕IDE了,OpenAI Codex独立App上线,多智能体替你写代码
36氪· 2026-02-03 20:46
AI编程工具形态与竞争格局 - AI编程赛道竞争持续升温,工具形态正从“代码补全”向“多智能体协作”演进 [1] - OpenAI发布Codex独立桌面App,被视为在编码工具领域的一次“防守反击”,旨在应对Google Gemini 3与Anthropic Claude Opus等强劲对手的竞争 [1] - 过去一个月已有超过100万名开发者使用Codex,自GPT-5.2发布以来,其使用量几乎翻倍 [8] Codex App的核心功能与设计理念 - Codex App是一个“代理的指挥中心”,提供聚焦的工作空间,用于统一管理多个AI智能体并支持其并行执行任务 [1] - 每个Codex智能体可连续工作长达30分钟,运行在GPT-5.2-Codex模型之上,在TerminalBench基准测试中位列第一 [1] - 应用内置对git worktree的支持,允许智能体在同一仓库中并行工作而不冲突,开发者可同时探索不同实现路径 [2] - 采用安全优先设计原则,使用原生、开源且可配置的系统级沙箱机制,智能体默认仅能访问受限资源 [6] - 核心理念是一切能力以代码为中心,旨在弥合前沿模型与真实工作场景之间的使用门槛 [10] 从代码生成到任务闭环的能力拓展 - Codex通过Skills(技能)机制拓展能力边界,将指令、资源和脚本打包成可复用技能,以调用外部工具并执行完整工作流 [3] - 官方技能库覆盖从设计到部署的多个环节,例如从Figma获取设计、在Linear管理项目、将应用部署到Cloudflare或Vercel等 [3] - 引入Automations(自动化)机制,允许开发者设定定时任务,让智能体在后台持续运行以处理重复性工作 [5] - 展示案例中,Codex独立完成了一款包含多角色、8张地图的赛车游戏开发,总计消耗了700多万token,扮演了设计师、开发者和测试员多重角色 [4] 实际应用价值与开发者体验 - Codex App能有效处理技术债,例如重构代码、清理历史遗留问题、补齐测试覆盖,AI可不受情绪影响持续工作直至问题解决 [7] - 应用支持开发者直接审查智能体提交的改动,对diff进行评论,并能一键在本地编辑器中打开代码进行人工微调 [2] - 对于已使用Codex CLI或IDE插件的用户,迁移成本低,App会自动继承已有的会话历史和配置 [2] - 目前Codex App已在macOS上线,面向ChatGPT Plus、Pro、Business、Enterprise和Edu用户开放,使用量包含在订阅中,所有付费方案的速率限制将翻倍 [7] 公司战略与未来规划 - OpenAI明确目标是赶在竞争对手扩大影响力前,将Codex打造成AI编程领域的默认工具 [8] - 公司计划推出Windows版本,支持云端触发的Automations,并持续提升模型能力与推理性能 [9] - Codex的演进路径从命令行工具到网页版,再到如今的独立桌面App,是对“智能体编程”市场的关键追赶 [10]
撒下 5 亿,百度想用 AI 重做一遍“社交”
搜狐财经· 2026-01-29 22:25
行业共识与战略转向 - 行业巨头(百度、腾讯、阿里)在AI应用形态上形成共识,认为单一的对话机器人(Chatbot)面临商业可持续性与用户粘性的双重瓶颈,因此不约而同地将战略重点转向了“AI+群聊”方向 [1] - 行业正从炫技走向务实,集体从对技术指标的痴迷,回归到对用户习惯的商业化培养 [9] - 巨头们押注的AI群聊范式,承诺了一种“无摩擦协作”的愿景,其竞争本质是在争夺定义未来人机协作规则的话语权 [13] 百度文心的战略与产品路径 - 百度文心APP的战略意图是构建一个以AI为协作者的“事务性场景”,其群聊功能旨在打造“去好友化”的协作空间,用户围绕具体目标拉群,AI智能体在群内实时调度资源,模式是“以事聚人,事毕人散” [2][7] - 百度在此次春节红包大战中投入5亿现金,目的是以红包为引信,培育用户“遇到事情,拉个AI群”的心智习惯,为其AI寻找最具象的场景化入口 [1][8] - 百度选择的“协作”切入点,避开了微信坚固的熟人关系护城河,试图在社交领域划出“协作”飞地,其逻辑是当社交目的变为解决问题时,效率与结果成为唯一衡量标准 [7][8] - 百度已构建起“芯-云-模-体”的全栈自研协同体系,实现了从底层昆仑芯片到上层应用的全链路可控,这是支撑大规模AI群聊互动成本控制的基础 [11] - 百度通过组织架构调整成立个人超级智能事业群组(PSIG),整合了网盘、文库等核心AI应用资产,验证了AI能产生稳定现金流的逻辑 [11] 腾讯与字节的路径差异 - 腾讯的“元宝派”根植于微信关系链,优势在于冷启动便捷,但受限于熟人社交边界 [5] - 抖音的“小火人”源自短视频内容生态,长于情绪陪伴与娱乐发散 [5] - 字节跳动的社交战役(如多闪)始终围绕“娱乐”与“情绪”展开,与百度文心以“协作”为核心的切入点截然不同 [7] 百度的商业化进展与底气 - 百度AI应用(包括文库、网盘、数字员工等)在第三季度创造了26亿元收入 [12] - 百度文库的AI日活跃用户同比增长230%,付费率年同比增长60% [12] - 百度网盘的AI月活跃用户超过8000万 [12] - 百度文库的AI月活跃用户已突破9700万 [11] - 基于已跑通的“订阅+服务”商业模式和完成的技术闭环,百度在2026年春节敢于重金投入,旨在寻找业务爆发的契机 [12] 对AI社交未来的审视 - AI群聊将AI从“问答机”变为“协作者”,嵌入人类协作的自然流程,以寻找高频场景,其基于目标的协作关系比单纯提供工具更有效率 [5][6] - 需要警惕“效率的暴政”,协作中意图澄清、共识磨合等看似低效的过程,往往是信任建立与创意滋生的土壤,高度优化、追求瞬时闭环的AI协作可能压缩意外探索的可能性 [13] - 技术路径的选择,将决定未来数字生活在多大程度上被“优化”,又在多大程度上保留无法被量化的“噪声” [14]