剑桥大学：《2025-2026年AI智能体指数报告》

文章核心观点 - 2025年AI智能体技术繁荣发展的背后，存在严重的透明度与治理缺口，其能力发展与安全评估、约束机制的公开信息严重脱节 [2] - 一份由顶尖学术机构联合发布的《2025-2026年AI智能体指数》报告，通过对30个最具影响力的商用AI智能体系统进行系统性分析，揭示了在技术能力集中化、自主性、安全评估和问责机制等方面存在的系统性风险与信息不对称问题 [3][12] AI智能体市场格局与分类 - 报告将30个系统划分为三类：12个对话式智能体、13个企业工作流智能体和5个浏览器智能体，代表了当前商业落地的三种主要路径 [4] - 入选标准严苛，需同时满足自主性、目标复杂性、环境交互和通用性四项“代理性”基准，并具备影响力，最终从95个候选系统中筛选出30个 [4] - 地理分布高度集中，30个系统中有21个注册于美国（其中13个在特拉华州），5个注册于中国，其余4个分布于德国、挪威和开曼群岛 [5] 技术架构与生态系统依赖 - 技术架构高度集中，几乎所有入选系统都将GPT、Claude或Gemini系列作为底层模型，绝大多数开发者构建的是依附于少数基础模型的上层应用 [6] - 20个系统支持模型上下文协议（MCP），6个系统支持A2A（智能体间通信协议），且全部集中于企业平台，显示出协议在不同市场场景中的初步分工 [6] 智能体自主性与控制机制 - 采用L1至L5自主等级框架进行分析，不同类别智能体自主性差异显著：对话式智能体通常在L1至L3运行；浏览器智能体普遍处于L4至L5高度自主区间；企业平台则呈现“设计/部署自主性分裂” [7] - 紧急停止机制覆盖不全，20个系统记录了暂停/停止机制，但4个具备自主执行能力的系统（Alibaba MobileAgent、HubSpot Breeze、IBM watsonx和n8n）没有任何已记录的停止选项 [8] - 身份识别与披露现状堪忧，21个系统在默认情况下没有规定与非用户人类交互时须主动披露AI身份；仅3个系统支持对生成内容进行水印标注；6个系统明确使用类Chrome的用户代理字符串和本地IP模拟人类 [8] 安全评估透明度与问责问题 - 安全透明度存在系统性缺口，在全部240个安全相关字段中，多达133个（约55%）没有任何可查信息，其中浏览器智能体（64%缺失）和企业智能体（63%缺失）的信息空白率最高 [9] - 开发者披露实践分化明显，OpenAI、Anthropic和Google三家前沿实验室在安全评估上投入最多，但仅有4个系统提供了智能体专属系统卡；企业平台则倾向于用合规认证替代对智能体特定风险的实质性披露 [10] - 30个系统中有25个完全不披露内部安全评估结果，23个没有任何第三方测试记录，仅3个系统有明确的第三方测试记录 [10] - 报告指出存在“安全清洗”现象，且当前安全评估集中于基础模型层面，无法有效评估智能体在具体部署环境中的综合风险 [11] - 问责权碎片化问题突出，单个开发者通常只控制智能体生态系统中的部分环节，使得“谁应为特定智能体的行为负责”成为没有清晰答案的问题 [11] 核心结论与未来挑战 - 报告揭示了三大不会自行消解的模式：基础模型集中化、问责权碎片化、能力与安全披露的结构性不对称 [12] - 随着智能体能力持续跃升，这些治理缺口的代价将以加速度扩大，亟需建立结构化的强制报告要求或大规模的行业透明度自律机制 [12]