Workflow
系统级Agent
icon
搜索文档
美团AI浏览器,被龙虾截胡了
搜狐财经· 2026-03-09 10:17
美团推出AI浏览器Tabbit的战略背景 - 美团于3月2日通过旗下光年之外团队上线AI浏览器Tabbit并开启免费公测,正式加入由国内外科技巨头主导的AI浏览器赛道 [2] - 美团作为一家以本地生活起家的平台,既无浏览器产品历史积累,也无搜索业务基础设施,选择从“AI原生”定位切入该赛道显得较为激进 [2] - 产品上线后不久即卷入抄袭争议,被指与开源项目“陪读蛙”在界面设计、快捷键及内部文件名等方面高度相似,随后Tabbit回应称对GPL开源协议理解不足,已移除相关代码并开源修改后的版本 [2] 行业技术路线与产品分类 - AI浏览器概念自去年开始升温,其核心区别在于直接向用户提供总结后的答案,而非传统浏览器的链接列表 [3] - 从技术路线可分为两类:一是集成技术路线,在管理网页基础上增加AI能力和Chatbot式交互,代表为谷歌、微软及国内多数大厂;二是AI原生路线,基于AI原生架构打造,国外代表为Comet、Dia、Fellou AI、ChatGPT的Atlas,国内代表为Tabbit与夸克AI浏览器 [3] - AI浏览器功能实现难度分为三个等级:初级为信息提取与结构化、精确操作与指令跟随;中级为视觉-语言协同、多步规划与页面导航;高级为长上下文记忆、自主决策与容错能力 [4] Tabbit产品功能与性能测试 - Tabbit宣称具备智能对话、智能代理、标签组管理和快捷操作支持等主要功能,并提供“妙招”和“脚本”功能以适配不同行业,但其整体未展现出突破性创新 [4] - 在雪球网行情页面提取测试中,Tabbit成功生成前十涨幅表格,但将范围自动缩小到了A股,任务完成一半;夸克则无法直接提取实时行情数据 [4] - 在豆瓣电影Top250页面数据提取测试中,Tabbit与夸克均成功抓取数据生成表格,但在《泰坦尼克号》评分上出现分歧,核查后Tabbit抓取的9.5分与豆瓣实际评分一致,表现更优 [4][10][11] - 在跨电商平台比价及加购测试中,两者均无法直接完成加入购物车的自动化操作,夸克明确提示无法访问并转而提供报价清单,Tabbit则显示能访问但点击执行“加入购物车”时系统报错,最终仍需用户手动操作 [11][12] - 在定时任务测试中,Tabbit与夸克均无法执行连续3天定时访问网页并复制数据的任务,表明不具备定时任务和后台自动访问网页的能力 [13][14][15] 美团入局AI浏览器的战略动机 - 美团在面向消费者的C端AI产品上存在感不强,此前推出的AI助手“LongCat”及美团App内的“问小团”均未形成明显的用户心智,因此需要一款具有代表性的C端AI产品 [15] - 当前AI助手竞争已进入新阶段,大厂竞争焦点转向谁能成为用户日常使用AI的主要入口,AI浏览器因其天然连接整个互联网信息环境的能力而被重新审视,理论上可让用户在浏览网页时直接调用智能助手完成任务 [16] - 对于拥有大量商家资源与消费场景的美团,若AI浏览器形态走通,未来有可能串联起B端商家与C端消费场景,构建从信息决策到交易的完整闭环 [18] - AI浏览器是美团展示其Agent能力的重要载体,公司需要合适的平台来展示其大模型在任务规划、自主执行等方面的能力,而功能相对固化的美团App并非理想测试环境,选择更通用开放的浏览器成为技术落地新方向 [19] - 美团自研的LongCat大模型基础能力不错但起步较晚,与国内头部梯队仍有差距,公司在Agent方向上投入坚决且聚焦明确,推出Tabbit是其将模型能力与实际应用场景结合的重要尝试 [20] 行业竞争格局与注意力转移 - Tabbit上线后市场反馈平淡,行业评价其与现有AI浏览器功能差异不大,次日引发的广泛讨论主要源于抄袭争议 [21] - 当前AI领域的行业注意力已明显转向能够深度操控操作系统的Agent,如OpenClaw,其展示出的广阔想象空间让仍停留在应用层的AI浏览器显得声势不足 [21] - 在技术架构上,许多AI浏览器执行操作依赖截图再由视觉模型理解,流程耗时较长,且在处理复杂页面时因无法解析底层代码导致准确率降低,各大网站的防爬机制也限制了自动化操作 [22][24] - 相比之下,OpenClaw作为运行在本地的通用AI Agent,通过获取系统的“辅助功能树”快照来解析页面,以更接近底层、结构化的方式理解界面,使其表现更为智能 [24][25] - 系统级Agent如OpenClaw能力更强但门槛与风险更高,需要高操作权限可能引发误操作与安全问题,且部署复杂、使用成本高昂,一些重度用户每月API开销可达数百美元 [26] - 从长远看,AI浏览器与系统级Agent可能是Agent发展的两条不同路径:前者依托成熟入口更易触达用户并快速规模化;后者能力边界更大但在安全与成本上仍有门槛 [26]
豆包手机引发的思考:AgentVS超级App,AI公司VS手机厂商
新财富· 2025-12-16 16:22
文章核心观点 - 字节跳动推出的豆包手机助手技术预览版,通过系统级GUI Agent实现了跨应用自动操作,标志着AI手机从“以App为中心”向“以用户意图为中心”的范式转变,并引发了与超级App的生态冲突 [5][8] - 系统级Agent与超级App内Agent代表了两种不同的技术路线和商业模式,其核心冲突在于对用户意图入口和操作权限的争夺,行业可能走向重新划分权力边界的共存方案 [14][17] - 字节跳动率先推出豆包手机,是其寻找新增长入口、绕开阿里腾讯既有优势的战略实验,而华为、小米、三星、苹果等手机厂商基于各自的软硬件生态,采取了不同的Agent发展策略 [20][22] 豆包手机的突破性意义 - 技术演进:GUI Agent从依赖固定脚本的“不可理解”阶段,发展到2024年基于多模态视觉识别的“可理解”阶段,并在2025年随着OpenAI Operator等产品的推出走向实用化 [6][7] - 机制突破:豆包手机依托INJECT_EVENTS等系统级权限,实现了无需App开放API即可“看懂”屏幕并操作,其核心在于操作系统层面的高权限,而非模型本身 [8] - 优势体现:任务组织方式从“用户选App再操作”变为“Agent解析用户总任务并调度多个App完成”,理论上具有平台中立性,能缓解跨App流程割裂、操作链条过长等问题 [10][11] - 现状与挑战:当前仍处于“可用但早期”的工程机阶段,复杂链路执行效率、界面变化适应性有待提升,且用户对高权限Agent的隐私与安全存在顾虑 [13] 系统级Agent和超级App的冲突 - 路线对立:冲突本质是“操作系统+App+系统级Agent”与“超级应用+小程序+应用内Agent”两条路线的正面相遇,争夺用户意图的“总入口”地位 [14] - 超级App的反制:微信、支付宝、淘宝等超级App通过屏蔽、风控、人机验证等手段,旨在守住“账号由我监管、入口由我解释”的边界 [3][15] - 未来格局:中长期看,双方可能重新划分权力边界,形成分工合作,系统级Agent负责通用意图理解和基础编排,超级App则在高价值场景内提供标准化接口,形成新的“共存方案” [17] - 模式对比:操作系统+App模式优势在于复用现有生态、培养用户习惯,但模型通用性、本地算力、隐私保护要求高;超级应用+Agent模式优势在于云端统一运行、场景精准,但需重建以超级App为核心的生态 [18] 主要厂商在Agent方面的进展 - 华为:采用自研鸿蒙OS+自研大模型,将小艺深度写入系统,向“AI native OS”演进,致力于打造系统级、跨终端(手机、车机、穿戴、家居)的统一Agent [22][23][25] - 小米:路径是“系统助手+生态助手”结合,在HyperOS中整合AI能力,小爱同学叠加大模型,重点强化手机与AIoT设备之间的协同,打造人车家一体场景 [22][23][25] - 三星:深度绑定Google,以Google Gemini为核心打造Galaxy AI,自身侧重硬件与体验打磨,在安卓阵营中做Gemini的最佳载体 [22][24][25] - 苹果:坚持软硬一体,iOS 18的Apple Intelligence是唯一官方全局Agent(新Siri),第三方模型(如ChatGPT)只能作为可选插件接入,强调本地推理与隐私保护 [22][24][25] - 字节跳动:推出豆包手机是“重构入口的实验”,战略意图在于通过“硬件+AI模型+新入口”的组合,绕开阿里、腾讯的既有优势,寻找新增量 [20][21]