WebMCP协议的核心发布与意义 - 谷歌Chrome团队正式发布WebMCP协议,该协议允许AI智能体绕过传统的人类用户界面,直接与网站和Web应用的内核进行深度交互[1] - 该协议通过一个名为navigator.modelContext的API实现,使AI能跳过图形界面,直接向Web应用服务发送命令并获取结果[6] - 这一变化标志着AI智能体与网页交互的底层逻辑正经历彻底重塑,实现了从“视觉模拟”到“逻辑直连”的跃迁,可能终结传统的Web交互范式[7][8] 解决现有AI智能体交互的痛点 - 当前AI智能体操作网页的方式原始且低效,主要依赖模拟人类行为,如截屏、识别按钮位置、模拟点击和DOM抓取[11] - 现有方式存在显著缺点:成本高昂(一次简单搜索可能消耗数千token处理截图)、稳定性低(网站改版易导致AI“瘫痪”)、反馈低效(需反复“看”屏幕确认操作)[13] - WebMCP通过让网站直接向AI开放结构化服务接口,使智能体无需经过前端视觉界面,从根本上解决了上述问题,实现了降维打击[12] 技术实现与开发方式 - 在Chrome 146的早期预览版中,开发者可通过开启特定flag体验WebMCP[6] - 谷歌为开发者提供了两套灵活的API接入方式:声明性API(用于HTML表单中定义的标准操作)和命令式API(用于需要JavaScript执行的复杂动态互动)[18] - 这两种方式允许开发者为AI提供直接的工具集,使其能跳过视觉识别,直接访问网站背后的结构化函数[19] - 谷歌软件工程师将WebMCP的目标描述为成为AI应用领域的“USB-C接口”[19] 行业合作与项目背景 - WebMCP并非谷歌的独角戏,而是谷歌与微软开发者于2025年8月13日联手在GitHub上提交的开源项目[21] - 该开源项目在GitHub上已获得569个星标,有30个分支和39个议题,显示了较高的社区关注度[22] - 与通常需要后端服务器集成的MCP等协议不同,WebMCP让工具在客户端执行,只有在智能体加载页面后才可用,允许开发者使用更熟悉的浏览器端JavaScript[23] 主要优势与应用场景 - WebMCP的三大主要优势包括:代码复用(直接利用现有前端代码)、统一界面(用户和智能体共享界面,简化身份验证和状态同步)、作为无障碍利器(辅助技术可执行更高层级操作)[27] - 该协议让用户和智能体能在同一网页界面里并肩工作,既能利用现有应用逻辑,又能保持上下文共享和用户掌控感[25] - 开发者设想了三大应用场景:电子商务(如秒级下单)、旅游出行(精准预订专家)、客户支持(自动填写技术细节创建工单)[26][28][30] 对Web开发与互联网未来的影响 - WebMCP的核心思路是让网站发布结构化工具契约,而非仅提供视觉像素,将AI操作从“到处乱点直到碰巧蒙对”变为直接调用如book_flight这样的函数[34][36] - 如果WebMCP成为标准并被主流浏览器原生支持,未来的互联网可能分化为三层:发现层(列出页面可用工具)、JSON模式层(定义输入输出以减少AI幻觉)、状态层(对页面当前可用内容的共识)[36] - 这预示着“Agentic UI”时代的到来,未来网页将不仅是给人看的展示窗,更是能与AI无缝衔接的自动化服务节点[38] - 最终,那些拥有最清晰工具契约的应用程序将成为赢家,而非界面最花哨的[37] - WebMCP加速了互联网从“手动搜索”到“智能体自动执行”的范式转移[39]
谷歌Chrome深夜爆更,Agent不用「装」人了,前端最后防线崩了?