WebMCP
搜索文档
腾讯研究院AI速递 20260212
腾讯研究院· 2026-02-12 00:08
文章核心观点 文章汇总了生成式AI领域近期的多项重要技术发布、融资事件与公司动态,揭示了行业正朝着AI智能体(Agent)深度集成、多模态能力突破、开源模型性能追赶以及应用场景深化等方向快速发展 [1][2][4][7][8][9][10] 技术标准与协议演进 - 谷歌Chrome团队联合微软发布WebMCP协议,使AI智能体可通过`navigator.modelContext` API直接与网站内核交互,实现从“视觉模拟”到“逻辑直连”的跃迁,被视为“UI里的API”,可能推动互联网分化为人类UI层和Agent工具层 [1] 公司融资与战略发展 - 视频生成公司Runway完成3.15亿美元E轮融资,估值达53亿美元,累计融资8.15亿美元,投资方包括英伟达、AMD、Adobe等,资金将用于训练下一代世界模型 [2] - Runway已推出通用世界模型GWM-1,涵盖可探索环境、对话角色和机器人操作三个变体,其Gen-4.5模型在AI文生视频排行榜中位列第三 [2] - 马斯克旗下xAI联合创始人团队动荡,12人创始团队中已有6人离职,其中5人在过去一年内离开,包括近期48小时内相继离职的Jimmy Ba和吴宇怀,人才流失对公司即将推进的IPO构成挑战 [3] 大模型能力更新与竞争 - DeepSeek悄悄上线支持1M token超长上下文窗口的新模型,知识截止到2025年5月,可一次性处理《三体》三部曲体量的内容,其Agentic Coding能力有所提升 [4] - 智谱AI确认其新模型GLM-5即为OpenRouter热度榜首的“Pony Alpha”,该模型在编程与智能体能力上达到开源SOTA,真实编程体感逼近Claude Opus4.5,工具调用准确率极高 [5] - 社区实测显示,开发者使用GLM-5配合Claude Code运行项目约2小时生成170KB纯JavaScript代码 [6] - 科大讯飞发布基于全国产算力训练的星火X2大模型,采用293B MoE稀疏架构,推理性能比X1.5提升50%,在数学、推理、智能体等能力上对标国际顶尖水平 [8] 多模态与音频模型突破 - 蚂蚁集团开源全模态大模型Ming-flash-omni 2.0,业界首创在同一音轨中同时生成语音、环境音效与音乐,在多项能力上超越Gemini 2.5 Pro和Qwen3-Omni-30B-A3B-Instruct [7] - 该模型支持零样本语音克隆和精细属性控制,采用统一架构实现多模态深度融合 [7] 行业应用与智能体进展 - 美团龙猫LongCat发布“深度研究”智能体功能,在BrowseComp评测中达73.1分逼近顶级闭源模型,支持最多400轮交互与256K上下文,可自动化输出餐厅推荐、旅行规划等专业报告 [9] - 该智能体依托美团本地生活原生能力构建训练环境,通过Rubrics-as-Reward机制解决AI幻觉问题,并采用多智能体专业化分工 [9] - 讯飞星火X2在行业应用上全面升级,医疗能力率先通过权威评测,教育实现错因贯穿个性化学习,汽车座舱模糊意图交互从不可用提升至基本好用 [8] 前沿科技与开源模型 - 字节跳动Seed团队发布蛋白质结构预测开源模型Protenix-v1,在严格限制训练数据和模型规模条件下性能对标AlphaFold 3 [10] - 该模型成功解锁推理时Scaling能力,抗体-抗原复合物预测成功率从单seed的36%提升至80 seeds时的47.68% [10] - 团队采用双版本策略,并推出PXMeter评估工具集 [10]
谷歌Chrome深夜爆更,Agent不用「装」人了,前端最后防线崩了?
36氪· 2026-02-11 12:12
WebMCP协议的核心发布与意义 - 谷歌Chrome团队正式发布WebMCP协议,该协议允许AI智能体绕过传统的人类用户界面,直接与网站和Web应用的内核进行深度交互[1] - 该协议通过一个名为`navigator.modelContext`的API实现,使AI能跳过图形界面,直接向Web应用服务发送命令并获取结果[6] - 这一变化标志着AI智能体与网页交互的底层逻辑正经历彻底重塑,实现了从“视觉模拟”到“逻辑直连”的跃迁,可能终结传统的Web交互范式[7][8] 解决现有AI智能体交互的痛点 - 当前AI智能体操作网页的方式原始且低效,主要依赖模拟人类行为,如截屏、识别按钮位置、模拟点击和DOM抓取[11] - 现有方式存在显著缺点:成本高昂(一次简单搜索可能消耗数千token处理截图)、稳定性低(网站改版易导致AI“瘫痪”)、反馈低效(需反复“看”屏幕确认操作)[13] - WebMCP通过让网站直接向AI开放结构化服务接口,使智能体无需经过前端视觉界面,从根本上解决了上述问题,实现了降维打击[12] 技术实现与开发方式 - 在Chrome 146的早期预览版中,开发者可通过开启特定flag体验WebMCP[6] - 谷歌为开发者提供了两套灵活的API接入方式:声明性API(用于HTML表单中定义的标准操作)和命令式API(用于需要JavaScript执行的复杂动态互动)[18] - 这两种方式允许开发者为AI提供直接的工具集,使其能跳过视觉识别,直接访问网站背后的结构化函数[19] - 谷歌软件工程师将WebMCP的目标描述为成为AI应用领域的“USB-C接口”[19] 行业合作与项目背景 - WebMCP并非谷歌的独角戏,而是谷歌与微软开发者于2025年8月13日联手在GitHub上提交的开源项目[21] - 该开源项目在GitHub上已获得569个星标,有30个分支和39个议题,显示了较高的社区关注度[22] - 与通常需要后端服务器集成的MCP等协议不同,WebMCP让工具在客户端执行,只有在智能体加载页面后才可用,允许开发者使用更熟悉的浏览器端JavaScript[23] 主要优势与应用场景 - WebMCP的三大主要优势包括:代码复用(直接利用现有前端代码)、统一界面(用户和智能体共享界面,简化身份验证和状态同步)、作为无障碍利器(辅助技术可执行更高层级操作)[27] - 该协议让用户和智能体能在同一网页界面里并肩工作,既能利用现有应用逻辑,又能保持上下文共享和用户掌控感[25] - 开发者设想了三大应用场景:电子商务(如秒级下单)、旅游出行(精准预订专家)、客户支持(自动填写技术细节创建工单)[26][28][30] 对Web开发与互联网未来的影响 - WebMCP的核心思路是让网站发布结构化工具契约,而非仅提供视觉像素,将AI操作从“到处乱点直到碰巧蒙对”变为直接调用如`book_flight`这样的函数[34][36] - 如果WebMCP成为标准并被主流浏览器原生支持,未来的互联网可能分化为三层:发现层(列出页面可用工具)、JSON模式层(定义输入输出以减少AI幻觉)、状态层(对页面当前可用内容的共识)[36] - 这预示着“Agentic UI”时代的到来,未来网页将不仅是给人看的展示窗,更是能与AI无缝衔接的自动化服务节点[38] - 最终,那些拥有最清晰工具契约的应用程序将成为赢家,而非界面最花哨的[37] - WebMCP加速了互联网从“手动搜索”到“智能体自动执行”的范式转移[39]