美团发布LongCat原生“深度研究”智能体,实测可用率超越ChatGPT
财经网·2026-02-11 18:18

产品发布与核心定位 - 美团正式发布LongCat原生“深度研究”智能体,这是公司在“AI+本地生活”领域的最新进展 [1] - 新产品在智能体搜索、超长程及高并发任务处理等核心能力上表现突出 [1] - 该功能已在https://longcat.ai网站上线,用户可免费体验 [3] 核心性能与基准测试 - 在权威评测BrowseComp中,LongCat结合上下文管理能力得分达73.1分,性能逼近顶级闭源模型 [1][8] - 在BrowseComp-zh评测中,LongCat得分为69.0 / 77.7 [8] - 模型支持最多400轮交互与256K上下文,满足持续理解并拆解极端复杂的个性化需求与长文档研究的需求 [1][8] - 模型总参数量为560B,激活参数量为27B,采用MoE架构 [8] 本地生活场景应用优势 - 在针对本地生活场景的“吃喝玩乐”攻略盲测中,LongCat的“整体可用率”达到61.1%,显著高于ChatGPT的42.8% [3] - 其生成的攻略“保存分享率”以31.1%位居第一 [3] - 在旅行规划、餐厅甄选等场景中,智能体会综合预算、口味、无障碍设施等多维约束,生成精确到分钟的落地执行方案 [8] 技术架构与训练方法 - 核心壁垒是采用了“真实场景+科学训练”的训练方法,让智能体更懂生活 [3] - 依托美团在本地生活领域的原生能力,LongCat搭建了一套覆盖POI搜索、地图规划、实时票务的真实工具集 [3] - 智能体在训练阶段即在真实环境中与实时数据交互,每条餐厅推荐背后都有真实的消费热度背书,每条路线规划都依托实时客流监测 [3][6] - 团队引入了基于评价准则的奖励机制,通过专家提炼的评价体系合成高质量数据,对模型进行强化学习 [6] - 关键支撑是Search-Report-Render三层智能体闭环架构,实现了从信息获取到可视化交付的全流程自动化 [7] 各层智能体功能详解 - Search Agent是“信息猎手”,具备行业领先的复杂任务决策能力 [8] - Report Agent是“逻辑大师”,采用“全局规划-递归生成”机制,先生成大纲再逐章结合实时搜索结果撰写,有效解决了长文本生成中的逻辑断层问题 [9][12] - Render Agent是“视觉设计师”,实现了端到端自适应网页渲染,能理解内容语义,动态生成对比表格、决策流程图或数据可视化图表 [12] 多场景任务表现 - 在数学推理任务中,LongCat在AIME-25评测中得分为99.6 / 100.0±,在HMMT-25中得分为93.4 / 97.51 [8] - 在智能体工具使用任务中,LongCat在T2-Avg评测中得分为88.2,在72-Retail中得分为88.6,在72-Telecom中得分为99.3 [8] - 在编码任务中,LongCat在LCB评测中得分为82.8,在OJBench中得分为42.2 [8]

美团发布LongCat原生“深度研究”智能体,实测可用率超越ChatGPT - Reportify