WebMCP
搜索文档
「龙虾之父」吐槽人类互联网后,终于有人把这当个事儿办了
机器之心· 2026-03-30 11:00
行业背景与核心问题 - AI正逐渐成为互联网内容的主要消费者,但当前互联网基础设施并非为AI智能体(Agent)设计,导致其使用体验极差[1][3] - 当前互联网对Agent“极其不友好”,具体表现为:各种验证登录阻碍、工具接口混乱、调用成本高昂且成功率低,单步调用成功率仅60%,多步调用可跌至30%以下[4] - Agent的上网行为模式与人类存在本质区别:人类是浏览与思考,Agent是为完成任务而进行跨平台、长链条的工具调用,对速度和可靠性要求极高,但现有基于人类设计的网络缓存(如CDN)和UI无法满足其需求[15] - 外部工具调用是当前Agent运行的一大短板,即使简单任务也需调用十几次外部工具,链条易断,导致Agent在反复试错中浪费大量token,效率低下[14][16] Agent Internet Infra 的定义与机遇 - Agent Internet Infra 是让海量智能体能够自主发现、安全连接、可信协作的底层网络协议与中间件体系,核心解决Agent与外部连接及Agent间协作的问题[17] - 该方向核心能力包括:身份认证、通信协议、权限治理、跨平台工具调用、数据传输优化、交易支付、安全管理等[17] - 行业尚处早期,虽有Cloudflare发布Markdown for Agents、谷歌发布WebMCP等尝试,但新一代基础设施服务商仍然缺位[17] - 该赛道天花板极高,因为一个公司或个人可部署成百上千个永不休息的Agent,其承载的流量和价值上限难以估量,有望催生一批新的大公司[27] 公司战略与解决方案 - 公司AgentEarth的战略锚点是:从第一天起就把Agent视为网络的终端用户,基础设施优化方向从“服务于人类体验”转向“服务于任务完成率和效率”,并对任务结果负责[19] - 产品决策上,公司刻意不做面向人的界面和复杂开发者体验,只做标准化Agent接口,坚信未来是Agent自主装配工具,为人类设计的操作层仅是短期过渡[20] - 解决方案分为三层技术栈:1)顶层采用“自营逻辑”精选并托管高质量工具,保证早期服务质量,类似早期京东自营,未来将开放生态并引入基于大模型的智能推荐[23];2)中间层构建面向Agent的“单一网关”,接管工具挑选、故障切换和统一结算,使调用成本透明可控[23];3)底层通过自研的“传-存-算一体化调度协议”优化数据传输,实测比当前最好的开源协议谷歌QUIC快2-10倍,甚至达十几倍[24] - 底层协议研发周期长(以十年计),源于早期优化TCP/IP的经验积累,构成了公司的核心技术壁垒,难以被短期复制[25] 团队优势与发展现状 - 核心团队具备稀缺的复合经验:CEO刘洪涛拥有企业级基础设施从0到1的规模化验证经验;CTO单明辉曾构建和运维滴滴数亿人与海量网约车的实时大型匹配系统;首席科学家薛教授深耕国家级前沿网络技术与底层协议栈[5] - 团队在极端稳定性、效率和容错要求场景下的实战经验,在Agent调用规模起来后将变得极具价值且难以快速复制[28] - 公司已基于上述判断和优势,发布了产品测试版并开始小范围测试[29]
腾讯研究院AI速递 20260317
腾讯研究院· 2026-03-17 00:01
行业核心动态:AI智能体与下一代模型架构的演进 - 谷歌与微软联合推出并开源WebMCP协议,使AI智能体可通过API直接调用网页底层功能,无需依赖截屏或模拟点击等低效方式 [1] - 智谱推出为OpenClaw龙虾场景深度优化的GLM-5-Turbo模型,强化工具调用、长链路执行等能力,盲测中90%用户认为其优于其他国产模型 [2] - 月之暗面发布注意力残差(AttnRes)论文,用动态注意力机制替代传统残差连接,在Kimi Linear架构上验证后使GPQA-Diamond基准提升超20%,计算效率相当于1.25倍算力基线 [3] - Sam Altman预言下一代AI架构将彻底颠覆Transformer,性能跃升不亚于当年Transformer对LSTM的颠覆,并认为AGI可能在两年内降临 [10] - 后Transformer架构竞争已启动,例如Mamba第三代架构推理吞吐快5倍,英伟达全线新模型切换混合架构 [11] 智能体(Agent)生态与应用发展 - 智谱同步发布针对Agent场景的龙虾套餐(个人版和Team版),以解决tokens消耗高的问题,并推出企业级Claw安全管理体系 [2] - 腾讯元宝App更新后,用户可将OpenClaw龙虾接入“元宝派”社交功能,实现多人共同养虾、龙虾互动的社交化Agent体验,生态从“人+Bot”扩展为“人+Bot+龙虾” [4] - 腾讯电脑管家上线“龙虾管家”功能,为OpenClaw提供全套安全防护,包括文件保护、端口暴露检测等,针对当前38万个OpenClaw实例公网暴露的安全隐患提供解决方案 [5][6] - UniPat AI开源SWE-Vision极简视觉智能体框架,仅用两个工具和约五百行代码,通过让多模态模型编写Python代码来分步处理视觉任务,显著提升基础感知任务精度 [7][8] 模型与智能体能力突破 - 陈天桥旗下MiroMind发布MiroThinker-1.7和H1重型推理智能体,在BrowseComp(88.2%)、GAIA(88.5%)等基准上刷新SOTA [7] - MiroMind H1采用智能体原生训练和以验证为核心的重型推理模式,在实测中提前15天预测黄金价格误差仅0.08% [7] - 智谱GLM-5-Turbo在工具调用稳定性和长任务执行方面获得多家大厂内测团队高度评价 [2] - UniPat AI的SWE-Vision框架揭示了视觉领域的新方向:通过test-time scaling(多写代码)而非仅靠延长思考时间来提升任务精度 [8] 行业风险与监管动向 - 315晚会曝光GEO(生成式引擎优化)黑产,商家可通过几篇软文、几小时即可让虚构产品出现在主流大模型的推荐结果中,涉事公司一年服务200多客户 [9] - 被曝光系统套餐价格从2980元到16980元/年不等,高级版每天可生成63篇虚假软文 [9] - 国家市场监管总局已将AI生成广告列为2026年互联网广告监管重点,将开展集中整治 [9]
腾讯研究院AI速递 20260212
腾讯研究院· 2026-02-12 00:08
文章核心观点 文章汇总了生成式AI领域近期的多项重要技术发布、融资事件与公司动态,揭示了行业正朝着AI智能体(Agent)深度集成、多模态能力突破、开源模型性能追赶以及应用场景深化等方向快速发展 [1][2][4][7][8][9][10] 技术标准与协议演进 - 谷歌Chrome团队联合微软发布WebMCP协议,使AI智能体可通过`navigator.modelContext` API直接与网站内核交互,实现从“视觉模拟”到“逻辑直连”的跃迁,被视为“UI里的API”,可能推动互联网分化为人类UI层和Agent工具层 [1] 公司融资与战略发展 - 视频生成公司Runway完成3.15亿美元E轮融资,估值达53亿美元,累计融资8.15亿美元,投资方包括英伟达、AMD、Adobe等,资金将用于训练下一代世界模型 [2] - Runway已推出通用世界模型GWM-1,涵盖可探索环境、对话角色和机器人操作三个变体,其Gen-4.5模型在AI文生视频排行榜中位列第三 [2] - 马斯克旗下xAI联合创始人团队动荡,12人创始团队中已有6人离职,其中5人在过去一年内离开,包括近期48小时内相继离职的Jimmy Ba和吴宇怀,人才流失对公司即将推进的IPO构成挑战 [3] 大模型能力更新与竞争 - DeepSeek悄悄上线支持1M token超长上下文窗口的新模型,知识截止到2025年5月,可一次性处理《三体》三部曲体量的内容,其Agentic Coding能力有所提升 [4] - 智谱AI确认其新模型GLM-5即为OpenRouter热度榜首的“Pony Alpha”,该模型在编程与智能体能力上达到开源SOTA,真实编程体感逼近Claude Opus4.5,工具调用准确率极高 [5] - 社区实测显示,开发者使用GLM-5配合Claude Code运行项目约2小时生成170KB纯JavaScript代码 [6] - 科大讯飞发布基于全国产算力训练的星火X2大模型,采用293B MoE稀疏架构,推理性能比X1.5提升50%,在数学、推理、智能体等能力上对标国际顶尖水平 [8] 多模态与音频模型突破 - 蚂蚁集团开源全模态大模型Ming-flash-omni 2.0,业界首创在同一音轨中同时生成语音、环境音效与音乐,在多项能力上超越Gemini 2.5 Pro和Qwen3-Omni-30B-A3B-Instruct [7] - 该模型支持零样本语音克隆和精细属性控制,采用统一架构实现多模态深度融合 [7] 行业应用与智能体进展 - 美团龙猫LongCat发布“深度研究”智能体功能,在BrowseComp评测中达73.1分逼近顶级闭源模型,支持最多400轮交互与256K上下文,可自动化输出餐厅推荐、旅行规划等专业报告 [9] - 该智能体依托美团本地生活原生能力构建训练环境,通过Rubrics-as-Reward机制解决AI幻觉问题,并采用多智能体专业化分工 [9] - 讯飞星火X2在行业应用上全面升级,医疗能力率先通过权威评测,教育实现错因贯穿个性化学习,汽车座舱模糊意图交互从不可用提升至基本好用 [8] 前沿科技与开源模型 - 字节跳动Seed团队发布蛋白质结构预测开源模型Protenix-v1,在严格限制训练数据和模型规模条件下性能对标AlphaFold 3 [10] - 该模型成功解锁推理时Scaling能力,抗体-抗原复合物预测成功率从单seed的36%提升至80 seeds时的47.68% [10] - 团队采用双版本策略,并推出PXMeter评估工具集 [10]
谷歌Chrome深夜爆更,Agent不用「装」人了,前端最后防线崩了?
36氪· 2026-02-11 12:12
WebMCP协议的核心发布与意义 - 谷歌Chrome团队正式发布WebMCP协议,该协议允许AI智能体绕过传统的人类用户界面,直接与网站和Web应用的内核进行深度交互[1] - 该协议通过一个名为`navigator.modelContext`的API实现,使AI能跳过图形界面,直接向Web应用服务发送命令并获取结果[6] - 这一变化标志着AI智能体与网页交互的底层逻辑正经历彻底重塑,实现了从“视觉模拟”到“逻辑直连”的跃迁,可能终结传统的Web交互范式[7][8] 解决现有AI智能体交互的痛点 - 当前AI智能体操作网页的方式原始且低效,主要依赖模拟人类行为,如截屏、识别按钮位置、模拟点击和DOM抓取[11] - 现有方式存在显著缺点:成本高昂(一次简单搜索可能消耗数千token处理截图)、稳定性低(网站改版易导致AI“瘫痪”)、反馈低效(需反复“看”屏幕确认操作)[13] - WebMCP通过让网站直接向AI开放结构化服务接口,使智能体无需经过前端视觉界面,从根本上解决了上述问题,实现了降维打击[12] 技术实现与开发方式 - 在Chrome 146的早期预览版中,开发者可通过开启特定flag体验WebMCP[6] - 谷歌为开发者提供了两套灵活的API接入方式:声明性API(用于HTML表单中定义的标准操作)和命令式API(用于需要JavaScript执行的复杂动态互动)[18] - 这两种方式允许开发者为AI提供直接的工具集,使其能跳过视觉识别,直接访问网站背后的结构化函数[19] - 谷歌软件工程师将WebMCP的目标描述为成为AI应用领域的“USB-C接口”[19] 行业合作与项目背景 - WebMCP并非谷歌的独角戏,而是谷歌与微软开发者于2025年8月13日联手在GitHub上提交的开源项目[21] - 该开源项目在GitHub上已获得569个星标,有30个分支和39个议题,显示了较高的社区关注度[22] - 与通常需要后端服务器集成的MCP等协议不同,WebMCP让工具在客户端执行,只有在智能体加载页面后才可用,允许开发者使用更熟悉的浏览器端JavaScript[23] 主要优势与应用场景 - WebMCP的三大主要优势包括:代码复用(直接利用现有前端代码)、统一界面(用户和智能体共享界面,简化身份验证和状态同步)、作为无障碍利器(辅助技术可执行更高层级操作)[27] - 该协议让用户和智能体能在同一网页界面里并肩工作,既能利用现有应用逻辑,又能保持上下文共享和用户掌控感[25] - 开发者设想了三大应用场景:电子商务(如秒级下单)、旅游出行(精准预订专家)、客户支持(自动填写技术细节创建工单)[26][28][30] 对Web开发与互联网未来的影响 - WebMCP的核心思路是让网站发布结构化工具契约,而非仅提供视觉像素,将AI操作从“到处乱点直到碰巧蒙对”变为直接调用如`book_flight`这样的函数[34][36] - 如果WebMCP成为标准并被主流浏览器原生支持,未来的互联网可能分化为三层:发现层(列出页面可用工具)、JSON模式层(定义输入输出以减少AI幻觉)、状态层(对页面当前可用内容的共识)[36] - 这预示着“Agentic UI”时代的到来,未来网页将不仅是给人看的展示窗,更是能与AI无缝衔接的自动化服务节点[38] - 最终,那些拥有最清晰工具契约的应用程序将成为赢家,而非界面最花哨的[37] - WebMCP加速了互联网从“手动搜索”到“智能体自动执行”的范式转移[39]