美团发布LongCat原生“深度研究”智能体，实测可用率超越ChatGPT

产品发布与核心定位 - 美团正式发布LongCat原生“深度研究”智能体，这是公司在“AI+本地生活”领域的最新进展 [1] - 新产品在智能体搜索、超长程及高并发任务处理等核心能力上表现突出 [1] - 该功能已在https://longcat.ai网站上线，用户可免费体验 [3] 核心性能与基准测试 - 在权威评测BrowseComp中，LongCat结合上下文管理能力得分达73.1分，性能逼近顶级闭源模型 [1][8] - 在BrowseComp-zh评测中，LongCat得分为69.0 / 77.7 [8] - 模型支持最多400轮交互与256K上下文，满足持续理解并拆解极端复杂的个性化需求与长文档研究的需求 [1][8] - 模型总参数量为560B，激活参数量为27B，采用MoE架构 [8] 本地生活场景应用优势 - 在针对本地生活场景的“吃喝玩乐”攻略盲测中，LongCat的“整体可用率”达到61.1%，显著高于ChatGPT的42.8% [3] - 其生成的攻略“保存分享率”以31.1%位居第一 [3] - 在旅行规划、餐厅甄选等场景中，智能体会综合预算、口味、无障碍设施等多维约束，生成精确到分钟的落地执行方案 [8] 技术架构与训练方法 - 核心壁垒是采用了“真实场景+科学训练”的训练方法，让智能体更懂生活 [3] - 依托美团在本地生活领域的原生能力，LongCat搭建了一套覆盖POI搜索、地图规划、实时票务的真实工具集 [3] - 智能体在训练阶段即在真实环境中与实时数据交互，每条餐厅推荐背后都有真实的消费热度背书，每条路线规划都依托实时客流监测 [3][6] - 团队引入了基于评价准则的奖励机制，通过专家提炼的评价体系合成高质量数据，对模型进行强化学习 [6] - 关键支撑是Search-Report-Render三层智能体闭环架构，实现了从信息获取到可视化交付的全流程自动化 [7] 各层智能体功能详解 - Search Agent是“信息猎手”，具备行业领先的复杂任务决策能力 [8] - Report Agent是“逻辑大师”，采用“全局规划-递归生成”机制，先生成大纲再逐章结合实时搜索结果撰写，有效解决了长文本生成中的逻辑断层问题 [9][12] - Render Agent是“视觉设计师”，实现了端到端自适应网页渲染，能理解内容语义，动态生成对比表格、决策流程图或数据可视化图表 [12] 多场景任务表现 - 在数学推理任务中，LongCat在AIME-25评测中得分为99.6 / 100.0±，在HMMT-25中得分为93.4 / 97.51 [8] - 在智能体工具使用任务中，LongCat在T2-Avg评测中得分为88.2，在72-Retail中得分为88.6，在72-Telecom中得分为99.3 [8] - 在编码任务中，LongCat在LCB评测中得分为82.8，在OJBench中得分为42.2 [8]