谷歌Chrome深夜爆更，Agent不用「装」人了，前端最后防线崩了？

WebMCP协议的核心发布与意义 - 谷歌Chrome团队正式发布WebMCP协议，该协议允许AI智能体绕过传统的人类用户界面，直接与网站和Web应用的内核进行深度交互[1] - 该协议通过一个名为navigator.modelContext的API实现，使AI能跳过图形界面，直接向Web应用服务发送命令并获取结果[6] - 这一变化标志着AI智能体与网页交互的底层逻辑正经历彻底重塑，实现了从“视觉模拟”到“逻辑直连”的跃迁，可能终结传统的Web交互范式[7][8] 解决现有AI智能体交互的痛点 - 当前AI智能体操作网页的方式原始且低效，主要依赖模拟人类行为，如截屏、识别按钮位置、模拟点击和DOM抓取[11] - 现有方式存在显著缺点：成本高昂（一次简单搜索可能消耗数千token处理截图）、稳定性低（网站改版易导致AI“瘫痪”）、反馈低效（需反复“看”屏幕确认操作）[13] - WebMCP通过让网站直接向AI开放结构化服务接口，使智能体无需经过前端视觉界面，从根本上解决了上述问题，实现了降维打击[12] 技术实现与开发方式 - 在Chrome 146的早期预览版中，开发者可通过开启特定flag体验WebMCP[6] - 谷歌为开发者提供了两套灵活的API接入方式：声明性API（用于HTML表单中定义的标准操作）和命令式API（用于需要JavaScript执行的复杂动态互动）[18] - 这两种方式允许开发者为AI提供直接的工具集，使其能跳过视觉识别，直接访问网站背后的结构化函数[19] - 谷歌软件工程师将WebMCP的目标描述为成为AI应用领域的“USB-C接口”[19] 行业合作与项目背景 - WebMCP并非谷歌的独角戏，而是谷歌与微软开发者于2025年8月13日联手在GitHub上提交的开源项目[21] - 该开源项目在GitHub上已获得569个星标，有30个分支和39个议题，显示了较高的社区关注度[22] - 与通常需要后端服务器集成的MCP等协议不同，WebMCP让工具在客户端执行，只有在智能体加载页面后才可用，允许开发者使用更熟悉的浏览器端JavaScript[23] 主要优势与应用场景 - WebMCP的三大主要优势包括：代码复用（直接利用现有前端代码）、统一界面（用户和智能体共享界面，简化身份验证和状态同步）、作为无障碍利器（辅助技术可执行更高层级操作）[27] - 该协议让用户和智能体能在同一网页界面里并肩工作，既能利用现有应用逻辑，又能保持上下文共享和用户掌控感[25] - 开发者设想了三大应用场景：电子商务（如秒级下单）、旅游出行（精准预订专家）、客户支持（自动填写技术细节创建工单）[26][28][30] 对Web开发与互联网未来的影响 - WebMCP的核心思路是让网站发布结构化工具契约，而非仅提供视觉像素，将AI操作从“到处乱点直到碰巧蒙对”变为直接调用如book_flight这样的函数[34][36] - 如果WebMCP成为标准并被主流浏览器原生支持，未来的互联网可能分化为三层：发现层（列出页面可用工具）、JSON模式层（定义输入输出以减少AI幻觉）、状态层（对页面当前可用内容的共识）[36] - 这预示着“Agentic UI”时代的到来，未来网页将不仅是给人看的展示窗，更是能与AI无缝衔接的自动化服务节点[38] - 最终，那些拥有最清晰工具契约的应用程序将成为赢家，而非界面最花哨的[37] - WebMCP加速了互联网从“手动搜索”到“智能体自动执行”的范式转移[39]