Workflow
多智能体系统
icon
搜索文档
AI重写银行运营规则:多智能体时代已经到来
麦肯锡· 2026-03-10 15:24
文章核心观点 - AI,特别是多智能体系统,正从“可选项”演变为银行运营体系重塑的核心引擎,这不仅是技术升级,更是一场从底层工作方式到组织结构的全面变革,旨在将运营从“成本中心”升级为“战略赋能引擎”[2][3][4] - 尽管技术已成熟,但全球范围内实现AI规模化应用的银行不足10%,成功转型的关键挑战不在于技术,而在于组织变革的深度与决心,需要自上而下、以业务价值为核心的全面转型[6][9][18] - 银行运营重构蕴含巨大经济价值,AI有望在部分成本类别带来高达70%的成本降幅,整体成本基础有望下降15%至20%,先行者已实现效率提升30%至50%及生产力提升2至3倍[3][6] 行业现状与转型驱动力 - 银行运营成本高昂,通常占总成本的60%至70%,且大量关键流程(如客户身份验证、贷款审批)仍依赖人工,系统割裂,效率提升有限[2][3] - 多重压力推动转型:客户对数字化体验要求提高、监管持续收紧、欺诈风险上升,迫使银行改变运营模式以维系未来竞争力[3] - 行业投入迅速增长:2023年全球金融服务业AI投入达350亿美元,预计2027年将接近1000亿美元,资金流向清晰表明转型趋势[4] - 监管环境趋向利好,例如中国香港财库局在2024年10月发布AI政策宣言,为行业探索提供了更清晰的政策边界[4] 多智能体系统的定义与优势 - 多智能体系统不同于传统AI工具,它是由承担不同角色、可彼此协作的“数字同事”组成的体系,能够完成复杂任务并持续学习优化[5] - 其核心优势包括:作为全天候互动的业务伙伴、打通自动化“最后一公里”以处理非结构化工作、实现规模化与个性化服务带来百倍效率提升、具备快速自我进化能力、内置精细化的安全护栏机制确保操作稳健可控[5] - 与传统自动化不同,多智能体系统是一个与人类并肩协作、具备自主判断能力的智能体网络,可形成可规模化、可复用的组织智能资产[14] 银行运营的十大转型战场与潜在成效 - 银行运营体系可拆解为十大关键领域,包括客户旅程管理、销售与网点运营、客户服务、信贷运营、支付交易、催收、金融犯罪防控等,它们合计占据银行60%至70%的价值空间[11] - 在这些领域嵌入多智能体系统可带来深刻变化,麦肯锡识别出九类可跨领域应用的智能体,在“人类在环”机制下保障合规、提升透明度并增强韧性[11] - 具体成效指标(部分示例): - 客户旅程:直通处理率达95%+,流程数字化率95%+[15] - 销售与网点:生产力提升2至3倍,约60%时间用于创造收入的活动[15] - 客户服务中心:单个坐席处理工单数量提升4倍,净推荐值及客户满意度95%+[15] - 信贷运营:审批平均处理时间小于60分钟,返工及补充资料请求比例小于5%[15] - 支付运营:国内交易直通处理率90%+,异常清算平均处理时间小于2小时[15] - 金融犯罪防控:欺诈识别率提升3至4倍,误报率低于30%[15] 具体应用场景与价值释放案例 - **客户旅程**:以中小企业活期账户开立为例,办理周期可从5至8天压缩至24至48小时,返工率下降60%至70%,员工生产效率提升一倍[16] - **信贷运营**:融合数字化工具与AI对信贷流程再设计,可将决策周期从3至5天压缩至1天以内[16] - **支付业务**:依托AI提升处理效率、自动化解决异常问题,可将业务处理时间最多缩短70%[16] - **金融犯罪防控**:多智能体系统可将调查时间缩短50%以上[16] - **企业职能**:可自动化60%的财务交易类工作,将FP&A协调时间缩短30%至40%,报告周期从数周压缩至数天,预测准确率提升10%至25%[17] - **共享服务**:处理成本可降低20%至30%,合规成本降低20%至25%,整体运营支出下降30%至40%[17] 转型路径与成功关键 - 思维需从“技术优先”转向“业务优先”,聚焦客户体验、降低风险、提升成本效率等可量化成果[19] - 需系统评估十大关键运营领域,量化价值空间,优先将资源投入高影响领域[19] - 应锁定摩擦最大、价值流失最严重的流程(如人工KYC、支付异常处理)进行重塑,让AI成为流程再造核心[19] - 优先部署九大跨领域智能体,加速在不同业务场景的复用,避免重复开发[19] - 成功转型需在五个方面同时推进:建立以业务价值为核心的愿景与路线图、系统培养人才与协同团队、建立跨职能敏捷创新团队、引入模块化技术组件实现快速部署、建立完善的AI治理体系确保安全扩展[18] - 转型需要自上而下的牵引,往往由CEO与COO亲自挂帅,在战略对齐、资本配置与执行路径上形成合力[10]
腾讯楼下近千人排队安装,用户都在用OpenClaw做什么?
第一财经· 2026-03-06 23:15
OpenClaw的全球火爆现象与市场热度 - OpenClaw在代码托管平台GitHub上的star数(收藏数)已超过Linux,成为该平台最受欢迎的基础软件项目[3] - 在腾讯大厦线下活动中,近千名开发者和AI爱好者排队,数百个预约号码在一小时内发放完毕[3] - 该AI智能体从今年初开始火爆全球,其普及速度被描述为在短短三周内超越Linux过去三十年的成就,成为史上下载量最大的开源软件[7] 围绕OpenClaw的部署与服务生态 - 由于OpenClaw本地部署环境配置复杂,催生了上门安装、配置教程等付费服务市场,例如在小红书和闲鱼平台,上门安装费用在300元至1000元人民币,远程协助或教程费用在8元至200元人民币之间[5] - 国内云厂商积极推出配套部署方案以吸引用户:腾讯轻量云Lighthouse在1月底首发一键部署模板并适配主流IM工具,2月又推出可视化配置面板;百度智能云在2月推出极速简易版部署方案[6] - 腾讯云通过线下活动提供免费安装协助,安装时长可低至5分钟,并带动其云服务数据增长:腾讯轻量云Lighthouse开发者数量、调用核数多次突破历史峰值,OpenClaw云上用户规模已突破10万且持续上升[6] 行业领袖与投资人对OpenClaw的评价与展望 - 英伟达CEO黄仁勋在摩根士丹利会议上称OpenClaw是近期最重磅的软件发布,并认为其所在的AI应用层是目前产出最高、最具回报的领域[7] - 前微软、谷歌全球副总裁李开复表示,未来的竞争会发生在多智能体系统上,它将连接数字世界和物理世界[7] - 投资人表现出强烈兴趣,例如美团元老王慧文在一个月前公开表示,欢迎OpenClaw相关领域的创业团队联系融资[7] OpenClaw的多样化应用场景与用户实践 - 用户将OpenClaw作为本地智能体或“机器人秘书”使用,其优势在于能永久储存上下文,而不同于某些对话式AI存在上下文记忆限制[9] - 具体应用案例广泛:包括控制硬件设备(如“龙虾车”)、查询代码库与文档库、提醒股价变动、撰写社交媒体文案、设计封面、分析小说并生成视频、管理邮件与日程、预定餐厅以及自动监控投资组合等[7][8][9][10] - 企业用户已开始将OpenClaw与内部文档库打通,探索其在工作流程中的应用[9] OpenClaw引发的安全性质疑与风险讨论 - 有用户提醒,普通人首次使用应避免安装在办公主机上,并不要将邮箱凭证、密钥文件等敏感信息交给OpenClaw[10] - 安全事件引发关注:Meta的AI安全总监曾发文描述OpenClaw在未经充分确认下快速删除收件箱且无法阻止的情况[11] - 安全分析认为,在典型个人部署场景下,用户可能因缺乏安全运维经验而面临各类网络攻击的威胁[11]
在AI社会抓「内鬼」?上海AI Lab推出首个多智能体极端事件解释框架
机器之心· 2026-03-04 17:15
多智能体系统极端事件研究的核心观点 - 由上海人工智能实验室联合多所高校的研究团队,开发了首个用于诊断多智能体系统极端事件的解释框架,旨在拆解数字镜像中“黑天鹅”事件的演化过程并找出诱发系统崩溃的“内鬼”[2] - 研究核心观点是:多智能体系统中出现的恶性通胀、股市崩盘等“黑天鹅”极端事件,并非源于代码漏洞,而是系统演化中自发涌现的结果,并且这些事件具有可解释的、稳定的系统性结构[2][7][17] 研究背景与问题 - 2023年斯坦福“模拟小镇”的流行开启了大语言模型驱动多智能体系统模拟人类社会的元年,如今已构建出模拟宏观经济、金融市场、社交网络等高度复杂的社会系统数字镜像[5][6] - 随着系统复杂度攀升,现实社会中的极端事件在AI多智能体系统中精准重演,但智能体间庞杂的非线性交互构成了一个巨大的涌现“黑盒”,使得难以追溯危机起源、关键驱动者及触发行为[7][12] - 研究需要解决三个溯源难题:极端事件从何时开始积累、由谁驱动、以及由何种具体行为模式促成[12][14] 研究方法与框架 - 研究团队推出了首个专门用于诊断多智能体系统极端事件的解释框架,其核心分析工具是博弈论中的沙普利值[13] - 该框架将系统爆发的灾难风险精准拆解并公平分摊到每个智能体在每一时刻的每个具体动作上,并沿时间、智能体、行为模式三个维度对风险贡献进行归纳聚类[13] - 团队进一步设计了五把量化风险的标尺来刻画极端事件的演化特征:风险潜伏期、智能体风险集中度、风险-不稳定性相关性、智能体风险同步性、行为风险集中度[13] 极端事件的五大演化规律 - **发现1(风起于青萍之末)**:极端事件的时间演化特征呈现两极分化,风险要么早已埋下伏笔蓄势待发,要么大部分源于当下瞬间引爆[19] - **发现2(害群之马)**:极端事件往往由少数高危智能体驱动[20] - **发现3(不稳定性)**:对系统崩溃贡献越大的智能体,其日常行为往往表现出极高的不稳定性[20] - **发现4(羊群效应)**:智能体之间会形成隐形默契,倾向于同步地增加或减少系统风险[20] - **发现5(毒瘤行为)**:导致系统崩盘的绝大部分风险,只源自极少数特定的行为模式[20] 实验验证与效果 - 实验在宏观经济、金融市场和社交网络三大场景中,对GPT-4o mini、Llama-3.1-8B-Instruct、Claude-3-Haiku、Qwen-Plus、DeepSeek-V3.2等多种大模型进行了测试[15][22] - 根据框架算出的风险归因分数,在系统中定向移除高贡献的“危险动作”后重演,整体系统崩溃风险出现断崖式下降[21] - 在多个场景的对比实验中,该团队的方法在降低风险方面普遍优于随机方法及其他现有方法,例如在TwinMarket场景中使用GPT-4o mini时,其方法使风险降低了`38.20%`(Top-3动作)和`60.05%`(Top-10动作),效果显著[22] 行业影响与未来展望 - 该研究意味着在风险演化的关键节点,通过精准监管并干预具有高危特征的智能体和行为模式,有望在AI模拟的数字世界乃至未来现实社会中实现真正的防患于未然[22] - 面对多智能体构建的现实镜像,掌握解释极端涌现现象的工具,是重新编译一个更加安全未来的关键[23]
耗费2万美元、两周写10万行Rust代码!16个Claude智能体写的C编译器,能编译Linux内核却卡在“Hello World”?
程序员的那些事· 2026-02-11 17:44
实验概述与核心目标 - Anthropic研究员Nicholas Carlini组织了一个由16个Claude智能体组成的团队,在长时间自主运行的情况下,从零构建了一个基于Rust的C编译器,并声称该编译器已能在x86、ARM和RISC-V架构上编译Linux 6.9内核 [1] - 实验核心并非单纯“写一个编译器”,而是测试多智能体系统在长期、复杂工程中的自主能力边界 [4] - 整个项目持续约两周,运行了近2000次Claude Code会话,消耗约200亿输入token、1.4亿输出token,API成本接近2万美元,最终产出了一个约10万行代码规模的C编译器 [4] 技术成果与能力展示 - 该编译器能够构建Linux 6.9内核,编译QEMU、FFmpeg、SQLite、Postgres、Redis等大型项目,在多个主流编译器测试集中取得约99%的通过率,甚至成功编译并运行了Doom游戏 [7] - 从能力展示角度看,这已远远超出了以往人们对大语言模型编程能力的认知 [5] 协作方式与系统设计创新 - 实验最大的创新点在于使用方式的改变,即“Agent Teams”多智能体协作方式,而非仅仅是模型升级 [6] - 研究员搭建了一个简单的循环框架,让智能体在Docker容器中自主运行,完成一个任务后立即接手下一个任务,无需操作员全程在线协作 [6][8] - 团队采用了高效的同步机制:创建一个空Git仓库,为每个智能体分配独立Docker容器并挂载仓库,通过“任务锁定”机制避免冲突,智能体在本地工作后推送代码至上游仓库 [9] - 随着项目推进,不同Claude智能体自然形成了分工,如修复Bug、合并代码、优化性能、重构架构、维护文档等,在没有统一调度和高层规划的前提下持续推进超大规模工程 [9] 项目存在的限制与挑战 - 该编译器并非完全独立完成Linux内核编译:在x86架构下,Linux启动所需的16位实模式代码仍需调用GCC生成 [14] - 缺少完整的汇编器和链接器:目前使用的assembler和linker仍是GCC组件,Claude只实现了部分能力且稳定性不足 [15] - 尚不能作为现有编译器的直接替代品:可以成功编译“很多”项目,但并非“所有”项目 [16] - 生成代码性能明显偏低:即便开启所有优化,其输出代码效率仍不如关闭优化的GCC [17] - Rust代码质量处于“可用但不优秀”水平:与资深Rust工程师手写代码仍有明显差距 [19] - 开发者社区发现,该编译器无法直接编译最基础的hello world程序,需手动指定正确的include路径才能通过,引发了对其实际成熟度的讨论 [11][13] 实验难点与研究意义 - 项目最难的部分并非让Claude写代码,而是设计一个能让其“不迷路”的长期自主运行环境 [21] - 研究员在测试和反馈机制上投入大量精力,包括极其严格的测试集、为模型设计的特定日志格式、防止模型“时间失明”的机制,以及强制维护README和进度文档以避免新启动的智能体陷入“失忆状态” [21] - 该项目被视为一次“极限压力测试”,旨在探索当前大模型在几乎完全自主的前提下,能将复杂系统工程推进到何种程度 [21] - 目前答案是:比很多人想象得远,但离真正可靠的工程自动化还有明显距离;它可以完成宏大目标,却容易在基础细节上翻车;可以写出10万行代码,却仍然需要人类工程经验来兜底关键环节 [21]
2026开局Update:锦秋与创业者的“全速前进”
锦秋集· 2026-02-03 18:44
锦秋基金及其被投企业动态 - 锦秋基金是一家活跃的早期科技投资机构,在2025年获得多项荣誉,包括网易新闻“2025年度人工智能活跃投资机构TOP 10”、投中网“投中2025年度中国最佳早期投资人TOP 50”等 [11] - 公司投资组合覆盖AI应用、AI硬件、具身智能/机器人等多个前沿领域,并在这些领域获得行业奖项认可 [11] - 公司旗下被投企业在2026年国际消费电子展上集体亮相,展示在机器人、人机交互及智能硬件领域的突破 [17] 视频播客栏目「锦供参考」核心观点 - 第二期探讨AI如何降低动画创作门槛,OiiOii公司构建了一套由AI编剧、分镜、音效组成的智能协作Agent系统,旨在让180万个“动画超级个体”成为可能 [1] - 第一期探讨2026年中美AI创业生态,邀请硅谷投资人及中国创业者,从硅谷VC尽调真相、非母语创业者融资攻略、OpenAI忽视的市场缝隙等角度,拆解中国创业者的定位与机会 [2] 行业交流活动「锦秋小饭桌」讨论要点 - 在CES展会期间举办近40人规模的交流活动,参与者来自AI硬件、AI Agent领域创业者及Meta、苹果、微软、字节等大厂从业者,围绕CES见闻与行业趋势交流 [3] - 以“预言2026”为主题的活动讨论了AI行业共识,包括供给侧变化、内容生产、产品护城河、定价方式、交互入口以及信任的稀缺性等话题 [5] - 活动聚焦AI应用落地的卡点与前景,汇集了AI手机、影像、浏览器、合成数据、硬件、社交等多个方向的从业者,复盘各赛道的生长阵痛与破局关键 [7] - 与Top1 AI漫剧公司的交流聚焦多模态内容,讨论指出AI漫剧正进入由投放规模驱动的大盘阶段,内容生产走向工业化,技术瓶颈在情绪表达与文戏质量,变现方式从分账与投流延展至品牌植入,并探讨低成本出海可能 [8][9] 被投企业融资与业务进展 - 人形机器人核心零部件企业**因克斯**完成近2亿元人民币新一轮融资,由华控基金、深创投集团共同领投,锦秋资本作为老股东持续追加投资,这是该公司年内完成的第三轮融资 [12] - 存算一体技术公司**铭芯启睿**完成超亿元Pre-A轮融资,由国开科创、联想创投领投,该公司此前于2025年3月完成近亿元天使轮融资,由锦秋基金领投 [12] - 世界模型与具身智能公司**Manifold AI流形空间**完成超亿元天使+轮融资,由君联资本领投,老股东锦秋基金持续加注,半年内累计已获得数亿元融资 [13] - 多智能体系统公司**atoms.dev**连续完成A轮与A+轮融资,共计3100万美元,A+轮由凯辉基金领投,锦秋基金等机构跟投 [13] - 具身智能公司**首形科技**宣布完成新一轮融资,由中网投与蚂蚁集团联合领投,这是该公司今年完成的第四轮融资 [13] 被投企业产品、技术与市场表现 - **宇树科技**2025年人形机器人出货量超5500台,根据市场推算位居行业出货量第一,其海外销售占总销量比例约为50% [14][17] - 宇树科技官宣成为“中央广播电视总台2026年春晚机器人合作伙伴”,这是其第三度与春晚结缘 [14] - **星尘智能**提出端到端全身VLA模型Lumo-1,旨在将大模型“心智”转化为机器人的丝滑操作,并与清华、港大、MIT联合提出基于对比学习的隐空间动作预训练框架,使机器人能从视频中直接学习技能 [15] - **生数科技**推出全球首个支持16秒音视频直出的多模态模型Vidu Q3,具备多镜头自由切换、多语言对话与文字渲染能力,专为漫剧、短剧、影视剧创作设计 [15] - **乐享科技**揭晓具身智能品牌Zeroth元点智能,携多款家庭机器人新品进军海外市场,聚焦提升机器人在复杂家庭环境中的移动性能、负载极限及持续交互能力 [16] - **Isoform**公司核心产品Yansu定位于“行动系统”,主张“意图即源代码”,通过AI驱动实现从“任务补全”向“产出驱动”的跨越,致力于解决复杂成熟系统中的开发与集成难题 [16][17] 被投企业在CES 2026的展示 - **宇树科技**携人形机器人H2、R1、G1及四足机器人A2、Go2等超过15台全系列产品亮相,已是第七年参展,并计划推出软件开发工具和训练平台给客户 [17] - **Zeroth元点智能**在CES期间完成全线产品的全球亮相,涵盖1.65米人形机器人Jupiter、家庭机器人M1、履带式机器人W1等多款产品 [19] - **清闲智能**在CES首秀旗舰新品“清闲动态人机工学椅生息绿限定款”,主打动态支撑技术,将于2026年1月16日开启海外预售 [19] - **庞伯特**的智能网球训练设备Pace S Pro在CES获得多项奖项,包括CES Picks奖项等,获得国际科技媒体认可 [21] - **因克斯**在CES展示20自由度等比例灵巧手EC-DexHand-5F及超小行星模组EC-A2806等机器人核心零部件新产品 [23]
Agent当上群主后,群聊变成办事大厅了
量子位· 2026-02-02 11:39
文章核心观点 - 百度文心APP正在内测行业首个“多人、多Agent”群聊功能,其目标并非简单的社交场景AI增强,而是对协作场景进行AI原生重构,旨在将群聊从一个闲聊场转变为能办事、能交付结果的行动中枢 [15][16] - 该功能面临群聊场景高熵、非结构化、多并发的技术挑战,百度通过提出Group-MAS(多智能体系统)智能运行时环境,系统性攻克了信息过滤、智能体协作、资源调度与主动介入等难题 [18][21][22] - 此功能是百度将前沿多智能体研究工程化、产品化的成果,验证了其从芯片、框架、模型到应用的全栈AI能力协同,并探索了“大模型即操作系统”的未来可能性 [45][47][49] 功能定位与价值 - 功能定位为“协作场景的AI原生重构”,旨在为群聊叠加关键的行动层,使其成为能办事、能交付结果的行动中枢,而非仅增强社交 [15][16] - 功能已扩大内测范围,在文心APP最新版本中即可体验 [17] - 具体应用场景包括:家人健康报告解读,群聊助手可自动拉入文心健康管家Agent进行口语化专业解读 [6];朋友出行规划,群聊助手能主动识别需求并提供旅行规划、实时查询信息等服务 [10][11] - 群中为每位成员配备专属的个人文心助手Agent,能记住个人偏好,在多个Agent实时补充与协作下,快速聚焦讨论并形成可行方案 [13] 面临的技术挑战与解决方案 - **挑战一:信息乱炖,AI难以听清指令**。群聊核心指令常淹没在闲聊噪音中,传统大模型单一的线性上下文窗口会导致关键指令被污染,引发模型幻觉 [23] - **解决方案**:放弃将所有消息塞进一个上下文窗口的思路,采用Hub-and-Spoke(星型拓扑)架构 [24] - Master中心节点作为系统“大脑+路由器+内核”,负责全局管理,并运用语义切片技术,将群聊信息按语义拆分归类,隔离成多个并行频道 [26][27] - 各执行Agent从Master处只接收与自身任务相关的语义切片,屏蔽无关信息干扰,构建专属上下文空间 [27] - **挑战二:不同Agent之间如何高效协作** [29] - **解决方案**:Group-MAS打造了统一声明式架构与标准化体系,所有智能体遵循同一套Agent Lifecycle FSM进行生命周期管理,并通过MCP Native协议兼容和热插拔特性,提升系统扩展性 [31] - 协作流程上,Master基于认知熵进行任务分级,识别复杂请求中的多个子意图,并将其路由到不同技能栈的Agent并行执行 [32][34] - 执行完毕后,Master充当最终整合编辑,将不同Agent的结果整合成结构清晰、语言统一的完整方案交付给用户 [34] - 若任务包含个人偏好,Master会优先将任务路由到用户的“个人助手”,以输出更具个性化的结果 [34] - **挑战三:多人同时派活,任务资源如何分配** [35] - **解决方案**:引入计算机CPU设计的精髓——乱序执行与分支预测,构建智能调度系统,这被认为是Group-MAS与常规智能体系统的最大区别 [36][37] - Master会维护一张动态的任务依赖图,进行依赖感知与并发流水线调度 [37] - 系统能识别任务依赖关系:无依赖的独立任务立即执行;有强依赖的任务进入等待,前置任务完成后自动解锁执行;依赖不明确的任务则挂起并询问用户或基于历史上下文推测 [38][39] - 此机制让AI群聊摆脱呆板的一问一答,成为能并行处理多项复杂任务的智能中枢 [40][41] - **挑战四:Agent如何有“眼力见儿”,适时介入** [42] - **解决方案**:为其植入动态的风格偏好系统与主动交互机制 [42] - 构建动态的Flavor注入层,将Agent行为风格解耦为一组可调节的连续特征(如信息密度、介入阈值、语气温度),支持基于会话或指令动态注入,实现无限细腻的风格微调 [42][43] - 采用主动观察模式,背后是一套OODA循环逻辑:观察群聊每一条消息、判断介入时机、决策行动、以调整好的风格回应,使Agent能读懂群聊氛围并适配场景需求 [43][44] 技术路径与行业意义 - 将多智能体系统深度整合进高并发实时交互场景是条高难度路径,需同时解决噪声过滤、依赖调度、风格适配等多个耦合性问题,并将大模型能力、实时通信、状态管理等多层技术栈无缝焊接 [46] - 文心APP群聊功能是对百度长期构建的从芯片、框架、模型到应用的“全栈AI”能力深度协同的一次验证,体现了公司将前沿研究转化为稳定、可交付的消费者级产品的工程化与系统整合能力 [47] - Group-MAS架构原生支持MCP协议,其智能体的热插拔能力让增加专业Agent变得像上传一份配置文件那样简单,为不同来源、不同专业的AI能力预备了一套标准化的接入与协作机制 [48][49] - 该功能是一次关于“系统智能如何融入人类协作流程”的工程性探索,验证了“大模型即操作系统”的可行性,也验证了百度有构建支撑未来AI原生世界的操作系统级基础设施的能力 [49] - 下一步,文心APP群聊功能还将支持在群聊内布置任务提醒,并上新一批特色玩法类Agent [50]
头部大模型厂商基本面更新与推荐
2026-02-02 10:22
涉及的行业与公司 * **行业**:大模型(AI)行业 [1] * **公司**: * **独立大模型厂商**:智谱、MiniMax、Kimi、Deepseek [1][2][5][6] * **大型互联网公司**:阿里巴巴(千问/通义千问)、字节跳动(豆包)、腾讯、百度 [1][8][11] * **海外厂商**:Anthropic、OpenAI [12][13] 核心观点与论据 行业发展趋势:从Chat到Agent范式转变 * 大模型行业已从“会聊天”的Chat范式全面转向“能办事”的Agent范式,头部厂商聚焦原生Agent能力打造,不再单纯追求参数规模 [1][5] * 到2028年,预计60%的系统将支持多厂商交互操作,多智能体系统将从单平台演进到智能体互联网 [1][10] * 短期来看,成本和用户体验仍是多智能体系统落地的最大约束,例如Kimi Swarm单次任务成本在10至15元之间,对大部分企业日常流程仍偏高 [10] 头部厂商竞争格局与差异化策略 * **智谱**:凭借全栈大模型技术自主可控及AIGC技术领先,从基座到推理再到智能体框架全链路布局,并通过核心产物开源策略快速构建行业生态 [1][6] * 于1月26日发布全球首个集结深度研究和实际操作能力的AutoGLM沉思模型,是其设备操控类智能体的重要升级 [2] * 更新了320亿参数的GLM 4 Air基座模型,性能比肩Deepseek 1,速度提升接近8倍 [2] * AutoGLM系列在Agent Bench评测中取得优异成绩,其GUI智能体GMPC以9B参数超越GPT-4O等大参数量模型 [2] * **MiniMax**:依靠高性价比API服务及强大的基座模型与AI原生工作台形成闭环,在TOB端、TOC端及开发者生态中占据优势 [1][6] * 于1月20日发布第二代智能体产品MiniMax Agent 2,将其定义为AI原生工作台,实现了从人适应Agent到Agent主动适应人的交互逻辑转变 [2] * 其API价格仅为Cloud Sonic 4.5的8%,性价比优势明显 [4] * **Kimi**:通过开源策略,以集群式Agent能力和多模态优势找到市场定位 [1][6] * 于1月27日发布并开源了万亿参数的Kimi 2.5多模态模型,具备集群式作战能力,可以调用最多100个专业分身并行完成任务 [5] * **Deepseek**:聚焦细分技术领域突破,从推理到OCR视觉处理,实现差异化竞争力 [1][6] * 同一天发布并开源了Deepseek OCR 2,通过贴近人类阅读逻辑的视频编码技术,使AI能够精准读懂复杂文档、表格和公式 [5] 大型互联网公司的AI入口争夺战 * 各大型互联网公司加剧对AI超级入口的争夺,试图掌握高频流量入口,并优化推理成本,以改写盈利预期和估值锚点 [8] * **腾讯**:调整组织架构并招聘高质量AI人才,推出会员3D模块与世界模块,重点期待微信Agent与3D世界模块 [8] * 元宝宣布于2月1日启动新春活动,发放10亿现金红包吸引用户 [11] * 通过3D世界模型和AI小程序成长计划,为开发者提供免费会员大模型Token和云资源,以构建其Agent应用的生态壁垒 [11] * **字节跳动**:凭借流量突围与豆包火山合作,以及豆包引入抖音商城 [8] * 旗下豆包成为2026年春晚独家AI云合作伙伴,预计春节期间AI应用流量峰值可达700亿次 [11] * 目前豆包模型日调用Token已超过50万亿,其MaaS服务覆盖80%的头部消费品牌、90%的车企及80%的头部券商 [11] * **阿里巴巴**:通过千问APP结合平头哥芯片与通义千问形成完整生态系统 [8] * 千问APP全面接入其生态系统,包括淘宝、飞猪、高德等,仅两个月时间内月活跃用户已接近2000万 [11] 大模型竞争的核心主线 * 大模型层面的竞争主要围绕四条主线展开,将决定各厂商在市场中的竞争优势 [3][14] 1. **高阶推理能力**:如千问3MAX THINKING、Deepseek下一代模型及Kimi K二等,展示了推理大模型在金融、科研及复杂工业设计中的价值空间 [14] 2. **原生多模态**:如Deepseek OCR 2、Kimi多模态以及千问Omni等,将多模态视为数据基础设施加交互界面,不仅服务于C端,也提升训练数据质量 [14] 3. **多Agent协同执行复杂任务**:如Kimi Swarm、Minimax Agent及千问AgentScope等,从单一助手过渡到多Agent协同执行复杂任务 [14] 4. **工程效率与推理成本**:如Deepseek V3及Gemini,在推理成本控制和工程化能力上的优势明显,直接影响其在大规模B端场景中的性价比竞争力 [14] 独立厂商的业绩与前景 * **智谱**: * 预计2025年收入达七八亿元,到2027年增长至25亿至38亿元,但不会实现扭亏,因为研发、算力及交付投入较高 [3][12] * 已成为中国收入体量最大的大模型初创公司,本地化部署收入占比逐步下降,而云端部署收入占比不断提升 [20] * 本地化部署维持60%左右毛利率,对整体收入贡献显著,云端业务则是未来长期估值提升核心 [20] * **MiniMax**: * 预计2025年收入接近3亿元人民币,而2026年可实现约2.3亿美元收入 [3][12] * 增速更为激进,市场空间天花板更高 [12] * 在C端核心产品Talkie星野方面,截至2025年前三季度全球累计用户超过两亿,月活跃用户2,762万,总体付费率为0.89%,显著高于行业平均水平 [19] * 其ARPU从2023年的6美元提升至15美元 [19] * 在B端业务方面,其开放平台客户数已从130家增加到1,320家 [19] 商业化关键链路与挑战 * **2026年商业化确定性的关键链路**有三条 [16][19]: 1. **推理成本持续下降**:从2024年至2026年持续下降一个数量级,例如MiniMax利用工程化优势将价格战转化为综合成本优势 [16][18] 2. **MaaS(Model as a Service)**:作为增长最快的子行业,到2030年前,中国市场渗透率预计达到70% [19] 3. **C端超级应用与多Agent协同**:预计将在2026年迎来落地,例如MiniMax在AI陪伴、内容创作等高时长、高UP值赛道提前卡位用户心智 [19] * **独立厂商面临的挑战** [15]: 1. **互联网大厂入口战**:存在赢家通吃风险,如果腾讯、字节跳动、阿里巴巴在2026年至2027年形成1至2个超级入口,将锁定C端用户习惯 2. **算力供给与成本波动**:如果大厂自建IDC进度超预期或算力价格战加剧,第三方AIDC及中小模型厂商成本优势将被削弱 3. **监管约束**:国内AI搜索、AI广告及AI内容生成等领域可能面临更强监管约束,商业化路径推进速度可能不及预期 其他重要内容 海外市场动态 * 根据The Information披露的数据,Anthropic将其2026年的收入预测上调20%,达到180亿美元,这表明大模型市场盘子不断扩大且增速超预期 [13] * 预计Anthropic 2025年的收入为80至100亿美元,到2027年可能突破500亿美元 [13] * 这种增长也会带动OpenAI被动上修其收入预期,对国内智谱与MiniMax估值锚定产生积极影响 [13] 发展路径共识 * 大型互联网公司在发展路径上形成三大共识 [9]: 1. **技术层面**:持续进行基座轻量化、高性能升级迭代,同时聚焦长程推理、多工具调用及端云协同等核心功能打磨 2. **产品层面**:将单一服务转化为场景化应用,实现从技术向产品转化 3. **生态层面**:要么依托自身技术优势构建开放开发者生态,要么利用产业生态实现场景渗透 * 各头部厂商开始全球化布局,例如智谱帮助“一带一路”国家构建自主大模型,实现国际扩展 [9] 独立厂商的配置价值 * 从配置层面看,智谱和MiniMax适合作为高贝塔的模型纯度标的,在AI行情强化期受益于资金关注度放大、自身收入增长及PS扩张带来的显著增量弹性 [17] * 模型层含金量持续验证,为智谱和MiniMax带来中长期估值支持 [17]
2026 年,商业变革者将面对什么?a16z 的最新趋势观察
36氪· 2026-01-29 18:58
垂直AI与多人协作模式 - 垂直AI行业软件在医疗、法律、住房领域实现快速增长,部分公司年化收入达到1亿美元以上[2] - 垂直AI演进路径从信息检索(找到、提取、总结)发展到2025年的推理能力(分析财报、跨系统对账、诊断问题)[2] - 2026年垂直AI将解锁“多人模式”,通过跨角色协调(任务路由、保持上下文、同步变更)解决多方协作问题,使AI智能体能够代表各方(如买卖双方、租户、顾问)在特定权限和流程内协同工作[2][3] - 多人协作模式将提升任务执行成功率,并使协作层本身成为AI应用的网络效应和护城河,增加用户切换成本[3] AI-native教育 - 预计到2026年将出现第一所从底层围绕智能系统构建的AI-native大学,形成一个能实时学习与自我优化的学术有机体[4] - AI-native大学的核心特征包括:课程表自动优化、阅读清单每日更新并随研究重写、学习路径根据学生节奏实时调整[4] - 教授角色将转变为学习架构师,负责策划数据、调优模型并教导学生质询机器推理[4] - 评估方式将转向AI感知型评价,重点评判学生如何使用AI,而非是否使用AI,透明且审慎的AI应用将成为新标准[4] - 这类大学旨在培养精通AI系统编排的人才,以助力劳动力结构快速转型,成为新经济的人才训练场[4][5] - 已有前兆出现,如亚利桑那州立大学与OpenAI的全校合作催生了数百个AI项目,纽约州立大学已将AI素养纳入通识教育要求[4] Agent-native基础设施 - 到2026年,企业基础设施面临的最大冲击来自工作负载变化:从面向人类、低并发的访问模式转向由智能体驱动、递归触发、突发且大规模的新型负载[6] - 传统后端系统围绕人类1:1操作模式构建,无法应对智能体在毫秒级别触发数千个子任务、查询和API调用的需求,常被误判为异常流量或DDoS攻击[6] - Agent-native基础设施需要重新设计控制平面,将“惊群效应”视为默认状态,大幅缩短冷启动时间,压缩延迟波动,并将并发上限提升数个数量级[7] - 真正的竞争瓶颈转向协调问题(路由、锁、状态管理、策略执行),最终具备竞争力的是能承受高频工具调用与复杂并发协调的平台[7] 多模态与视频内容创作 - 2026年可能是AI真正实现多模态创作的一年,创作者可将任何形式的参考内容(如图像、视频、声音)提供给模型,与之协作创作新内容或编辑现有场景[8] - 早期多模态产品已出现,如快手的Kling O1和Runway的Aleph模型,但模型层与应用层仍需持续创新[8] - 内容创作是AI最具杀伤力的应用场景之一,预计将诞生多个成功产品,覆盖从表情包创作者到好莱坞导演的不同用户群体[9] - 到2026年,视频将变成可“进入”的空间,视频模型能够理解时间、记住内容、对用户行为作出反应并保持长时间连贯性,使视频成为一种可被“构建”的媒介[10] - 这种转变让视频成为机器人训练、游戏演化、设计原型和智能体实践学习的“活的环境”,弥合感知与行动的鸿沟[10] AI应用价值衡量与商业模式 - 随着AI应用发展,以“屏幕时间”作为价值交付核心指标的时代将终结,基于结果定价和对齐供需激励的模式将兴起[11] - 现实变化已出现:例如使用DeepResearch查询、Abridge自动记录医患对话、Cursor自动开发应用、Hebbia生成路演材料等工具,在用户几乎不看屏幕的情况下交付巨大价值[11] - 挑战在于需要更复杂的ROI衡量方式,涉及医生满意度、开发者效率、金融分析师身心状态等,能够清晰阐述ROI的公司将持续领先[11] 世界模型与交互式叙事 - 到2026年,由AI驱动的世界模型(如Marble、Genie 3)将通过交互式虚拟世界和数字经济彻底重塑叙事方式,能根据文本生成完整的3D环境供用户探索[12] - 这些工具将催生全新的叙事形式,甚至演化为由玩家共同构建的“生成式Minecraft”宇宙,模糊玩家与创作者的边界[12] - 互联的生成式多重宇宙可能出现,不同题材并存并繁荣数字经济,这些世界还将成为训练AI智能体、机器人乃至AGI的高价值模拟环境[12] 个性化系统 - 2026年将成为“属于我的一年”,产品趋势从为大众批量生产转向为个体“你”而打造[13] - 在教育领域,像Alphaschool这样的公司正在打造根据每个学生节奏与兴趣调整教学的AI导师,提供以往需数万美元辅导费用才能实现的个性化体验[13] - 在健康领域,AI能根据个体生物特征设计补剂、训练与饮食方案;在媒体领域,AI让创作者将内容重混为符合个人兴趣与语气的内容流[13] 自主科学发现 - 随着多模态模型能力与机器人操控能力提升,将加速推进“自主科学发现”,催生能够闭环完成从提出假设、设计执行实验到推理产出的自主实验室[14][15] - 构建这类“熄灯实验室”需要融合AI、机器人、物理与生命科学、制造、运营等多学科专长,实现持续实验并在多领域推动连续性科学发现[15] AI应用分发与消费市场 - ChatGPT凭借9亿用户、OpenAI Apps SDK、苹果mini-app支持及群聊功能,正成为AI“应用商店”和新的原生分发渠道[16] - 这一新渠道预计将在2026年引爆一次“十年一遇”的消费科技淘金潮,为消费级开发者提供直接触达海量用户的增长机会[16] 语音智能体与企业集成 - 语音AI智能体已从科幻走向现实,被成千上万家企业用于预约、预订、调研等信息采集工作,为企业节省成本并创造收入[17] - 未来趋势是语音智能体从处理单点电话场景扩展到处理完整的多模态工作流,甚至管理完整的客户关系周期[17] - 随着底层模型进步,智能体将更深度集成到企业系统并被赋予处理更复杂互动的自由度,运行“语音优先”的AI产品优化关键业务环节将成为普遍选择[17] 主动式AI应用与工作流 - 2026年,主流AI应用的可见提示词输入框将走向终结,下一波应用将主动观察用户行为并介入给出行动建议(如IDE提前提出重构方案、CRM自动起草跟进邮件)[18] - AI将成为嵌入每一个工作流的“无形脚手架”,由意图驱动而非指令驱动,聊天界面只是过渡阶段的“辅助轮”[18] 企业多智能体系统与组织变革 - 到2026年,企业将从孤立的AI工具转向需要像协同数字团队一样运作的多智能体系统,共同管理复杂、相互依赖的工作流[19] - 《财富》500强企业将最强烈地感受到这种变化,将割裂的数据、机构知识和运营复杂性转化为自治“数字员工”的共享底座,以实现更快决策和端到端流程[20] - 这一转变将催生新的职能角色,如AI工作流设计师、智能体监督员、治理负责人,并需要全新的“协调系统”层来管理多智能体互动和确保可靠性[20] 消费级AI向连接性转变 - 2026年主流消费级AI产品将从“生产力”转向“连接性”,AI不再只是帮助完成工作,而是帮助用户更清晰地看见自己并建立更强人际关系[21] - 随着多模态上下文窗口扩大和推理成本下降,AI产品可以从用户生活的“完整纹理”(如相册、沟通模式、日常规律)中学习,而非仅从聊天记录学习[21] - “看见我”类产品依靠持续连接带来日常使用,其使用模式比解决具体任务的“帮助我”类产品更具粘性,尽管单次愿付费可能更低[21] AI研究辅助与工作流 - AI正更广泛地用于研究,尤其是在推理密集领域,模型不仅能辅助发现,还能自主求解高难度数学问题[22] - AI研究预计将催生并奖励一种新的“博学者式”研究风格,强调对思想之间关系的猜想能力,并能从猜想性答案中迅速外推,有时能利用“模型幻觉”打开新发现[22] - 这种研究需要“agent包裹agent”的多层模型工作流,以及模型间更好的互操作性和识别补偿贡献的方法,加密技术可能有助于解决后者[23] 数据隐私与访问控制 - 当前大多数数据管道(模型输入与输出的数据流)不透明、可变且不可审计,这在金融、医疗等需要保护敏感数据的行业成为阻碍[24][25] - 缺乏数据访问控制迫使主体使用中心化服务或自建定制方案,耗时昂贵且阻碍释放链上数据管理的收益[25] - 解决方案是发展“秘密即服务”,提供可编程、原生的数据访问规则、客户端加密和去中心化密钥管理,强制规定解密权限、条件和持续时间,并结合可验证数据系统将其变为核心基础设施[25] AI初创公司竞争策略 - 当前处于前所未有的公司创建时期,初创公司若想在分销上超越积极采用AI的老牌企业,有效策略是从公司成立之初就为其提供服务,并与新客户共同成长[26] - Stripe、Deel、Mercury、Ramp等公司都遵循了服务初创公司并伴随其成长的策略,Stripe的许多客户在公司成立之初甚至还不存在[26] - 2026年,从零开始服务初创公司的企业将在众多软件领域实现规模化发展,关键在于打造更好产品并全力开发尚未被现有厂商束缚的新客户[26]
北京形成人工智能闭环式产业生态
北京商报· 2026-01-26 01:18
行业发展阶段与趋势 - 人工智能产业已从最初的技术探索与概念热潮,进入聚焦落地效能的务实发展阶段 [1] - 大语言模型的基础研发步伐趋于平缓,产业重心向应用端加速转移 [1] - 技术演进的一个突出趋势是从单智能体向多智能体系统演进,通过协同配合处理具体场景任务的效果显著优于单一智能体 [1] - 人工智能正加速从数字世界向物理世界延伸,技术从文字信息处理向多模态模型、世界模型升级,着力攻克时间空间认知、物理常识推理等核心难题 [1] 北京人工智能产业生态与规模 - 北京作为人工智能发展的核心阵地,凭借全栈式生态布局为产业发展提供支撑 [1] - 2025年预计北京市人工智能核心产业规模达4500亿元,企业集聚超2500家,两项指标均占全国半数左右 [2] - 领域内上市企业近60家、独角兽企业约40家,国内首个上市的国产人工智能芯片企业和大模型企业、估值最高的人工智能独角兽企业均诞生于北京 [2] - 人才方面,北京入围“AI 2000全球最具影响力学者榜单”的有148人,占全国超40%,AI学者总量达1.5万人,占全国30% [2] 产业驱动因素与未来展望 - 顶层设计提供接地气、全方位的政策支持,叠加从底层算力芯片、中间层技术研发到顶层场景应用的完整布局,形成了闭环式产业生态 [2] - 科研机构、企业与政策层面形成的合力,正推动多智能体等人工智能领域新技术、应用加速突破场景壁垒、迈向商业闭环 [2] - 行业对2026年成为中国智能体爆发的关键之年充满期待 [2]
2026北京两会|对话市政协委员王仲远:北京形成了人工智能闭环式产业生态
北京商报· 2026-01-25 19:17
行业发展阶段与核心趋势 - 人工智能产业经过三年快速发展,已从初期的技术探索与概念热潮,进入聚焦落地效能的务实发展阶段 [2] - 大语言模型等基础模型的研发步伐趋于平缓,产业重心正加速向应用端转移 [2][3] - 行业一个突出趋势是从单智能体向多智能体系统演进,通过多个智能体协同处理具体场景任务,其效果显著优于单一智能体,被视为技术深度融入实体经济的关键路径 [2][5] - 人工智能正加速突破数字世界边界,向物理世界延伸,技术从语言模型向多模态模型、世界模型升级,着力攻克时间空间认知、物理常识推理等核心难题 [2][5] 北京人工智能产业生态与优势 - 北京作为人工智能发展的核心阵地,凭借全栈式生态布局,形成了从底层算力芯片、中间层技术研发到顶层场景应用的完整闭环式产业生态 [2][3][5] - 2025年预计北京市人工智能核心产业规模达4500亿元,集聚企业超2500家,两项指标均约占全国半数 [3] - 北京人工智能领域有近60家上市企业和约40家独角兽企业,国内首个上市的国产AI芯片企业、大模型企业以及估值最高的AI独角兽企业均诞生于此 [3] - 人才优势突出,北京有148人入围“AI 2000全球最具影响力学者榜单”,占全国超40%,AI学者总量达1.5万人,占全国30% [3][5] - 拥有从顶尖高校到新型研发机构再到企业的完整人才培养与发展全链条,为人才提供了多样化的成长平台 [7] 政策支持与产业引导 - 北京的政策支持接地气且布局全面,既支持从0到1的颠覆式创新,也扶持前瞻性技术研发,同时助力企业推进场景落地,形成了全方位的支撑体系 [3][6] - 科研机构、企业与政策层面形成的合力,正推动多智能体等新技术加速突破场景壁垒、迈向商业闭环 [3] 未来发展方向与预期 - 行业当前更聚焦于务实解决问题,实现大模型的商业闭环被视为技术与产业实现高质量发展的关键 [9] - 未来核心方向是促进大模型落地应用,多智能体系统是重要抓手,有真实案例显示18个智能体组成的系统远超客户满意度 [8] - 对2026年成为中国智能体爆发的关键之年充满期待,建议通过开放政务等领域智能体技能库、开展竞赛等方式推动多智能体落地 [3][8] - 当大模型基础能力提升进入平缓期,便迎来了应用落地爆发的绝佳阶段 [9]