Workflow
AI+本地生活
icon
搜索文档
美团发布LongCat原生“深度研究”智能体,实测可用率超越ChatGPT
财经网· 2026-02-11 18:18
产品发布与核心定位 - 美团正式发布LongCat原生“深度研究”智能体,这是公司在“AI+本地生活”领域的最新进展 [1] - 新产品在智能体搜索、超长程及高并发任务处理等核心能力上表现突出 [1] - 该功能已在https://longcat.ai网站上线,用户可免费体验 [3] 核心性能与基准测试 - 在权威评测BrowseComp中,LongCat结合上下文管理能力得分达73.1分,性能逼近顶级闭源模型 [1][8] - 在BrowseComp-zh评测中,LongCat得分为69.0 / 77.7 [8] - 模型支持最多400轮交互与256K上下文,满足持续理解并拆解极端复杂的个性化需求与长文档研究的需求 [1][8] - 模型总参数量为560B,激活参数量为27B,采用MoE架构 [8] 本地生活场景应用优势 - 在针对本地生活场景的“吃喝玩乐”攻略盲测中,LongCat的“整体可用率”达到61.1%,显著高于ChatGPT的42.8% [3] - 其生成的攻略“保存分享率”以31.1%位居第一 [3] - 在旅行规划、餐厅甄选等场景中,智能体会综合预算、口味、无障碍设施等多维约束,生成精确到分钟的落地执行方案 [8] 技术架构与训练方法 - 核心壁垒是采用了“真实场景+科学训练”的训练方法,让智能体更懂生活 [3] - 依托美团在本地生活领域的原生能力,LongCat搭建了一套覆盖POI搜索、地图规划、实时票务的真实工具集 [3] - 智能体在训练阶段即在真实环境中与实时数据交互,每条餐厅推荐背后都有真实的消费热度背书,每条路线规划都依托实时客流监测 [3][6] - 团队引入了基于评价准则的奖励机制,通过专家提炼的评价体系合成高质量数据,对模型进行强化学习 [6] - 关键支撑是Search-Report-Render三层智能体闭环架构,实现了从信息获取到可视化交付的全流程自动化 [7] 各层智能体功能详解 - Search Agent是“信息猎手”,具备行业领先的复杂任务决策能力 [8] - Report Agent是“逻辑大师”,采用“全局规划-递归生成”机制,先生成大纲再逐章结合实时搜索结果撰写,有效解决了长文本生成中的逻辑断层问题 [9][12] - Render Agent是“视觉设计师”,实现了端到端自适应网页渲染,能理解内容语义,动态生成对比表格、决策流程图或数据可视化图表 [12] 多场景任务表现 - 在数学推理任务中,LongCat在AIME-25评测中得分为99.6 / 100.0±,在HMMT-25中得分为93.4 / 97.51 [8] - 在智能体工具使用任务中,LongCat在T2-Avg评测中得分为88.2,在72-Retail中得分为88.6,在72-Telecom中得分为99.3 [8] - 在编码任务中,LongCat在LCB评测中得分为82.8,在OJBench中得分为42.2 [8]
美团发布原生“深度研究”智能体:每一条建议背后都有真实交易履约数据背书
每日经济新闻· 2026-02-11 17:16
公司动态 - 美团正式发布名为LongCat的原生“深度研究”智能体 [2] - 该产品是公司在“AI+本地生活”领域的最新进展 [2] 产品功能与特性 - 智能体通过调用真实工具链完成生活服务搜索与规划任务 [2] - 能为用户提供量身定制的吃喝玩乐全攻略 [2] - 每一条建议背后都有真实的交易履约数据作为支撑 [2] - 具备超长程、高并发任务处理能力,支持最多400轮交互 [2] - 支持256K上下文长度,能够持续理解并拆解极端复杂的个性化需求 [2] - 具备完成长文档研究的能力 [2]
决定了:过年攻略全都不过脑子,让AI去想
机器之心· 2026-02-11 16:34
文章核心观点 - 美团大模型LongCat(龙猫)新推出的“深度研究”(DeepResearch)功能,通过深度融合其本地生活领域的真实数据和工具链,在解决复杂、个性化的生活服务规划任务上展现出卓越的实用性和可靠性,重新定义了“AI+本地生活” [6][14][34] - LongCat在权威评测中,其“深度研究”功能的“开箱即用”程度和整体可用性已超越包括ChatGPT在内的主流通用型AI产品,标志着其在特定垂直领域的应用已达到领先水平 [16][17] - LongCat的技术架构强调真实场景训练与多智能体协作,通过独特的训练方法和校验机制,有效解决了大模型在长文本生成中的幻觉和逻辑断层问题,使其具备了接近专业研究者的复杂任务决策与推理能力 [22][23][28][31] 行业竞争与产品发布动态 - AI大模型领域竞争激烈,春节前后有多款重要模型发布或即将发布,包括kimi 2.5、Step 3.5 Flash、DeepSeek V4、GPT-5.3、Claude Sonnet 5、Qwen 3.5、GLM-5等 [1] - 美团LongCat作为大模型领域的后来者,凭借“速度快、工具调用出色”的实用主义路线快速追赶,于近期上线了“深度研究”功能 [4][5] LongCat深度研究功能的核心优势与市场验证 - **功能定位**:专注于解决需要大量信息检索和深度本地化理解的实际生活难题,如旅行规划、礼品选购等,而非简单问答 [6] - **核心优势**:背靠美团在本地生活领域沉淀的真实交易数据、用户消费反馈和商家经营数据,确保建议的可信度与实时性 [8] - **用户体验**:生成的报告不仅提供信息,还包含预算方案、交通路线、避峰指南等可直接执行的建议,且信息来源可一键跳转至大众点评进行核查或下单 [8][9] - **市场验证**:在一项覆盖全国36个城市60名用户的横向盲测中,LongCat生成的攻略在“保存分享率”指标上以31.1%位居第一(ChatGPT为16.7%),在“整体可用率”指标上达到61.1%(高于ChatGPT的42.8%) [16] LongCat的技术架构与实现原理 - **基础能力**:具备超长程、高并发任务处理能力,支持最多400轮交互与256K上下文,能持续拆解复杂需求 [22] - **多智能体工作流**:构建了信息收集(Search Agent)、研究分析(Report Agent)、可视化呈现(Render Agent)的专业化协作分工,以交付可直接使用的专业报告 [23] - **训练特色**:强调“真实与原生”,利用美团本地生活的真实工具集(如POI搜索、地图规划)进行训练,使其在智能体搜索和工具调用方面表现突出 [25] - **生成架构**:采用多步骤渐进式生成,先生成全局报告大纲,再通过“递归生成”策略逐章撰写,解决了长文本生成的逻辑断层与上下文遗忘问题 [28] - **校验机制**:引入Rubrics-as-Reward机制,建立包含引用准确率、信息召回率等多维评分体系进行数据清洗,大幅减少模型幻觉 [31] - **跨域训练**:采用“跨域知识融合的合版训练策略”,将垂直领域数据与通用语料、数学、代码数据联合训练,用代码和数学的严谨逻辑反向增强生活报告生成的条理性 [32] 性能表现与行业对标 - 在权威评测基准BrowseComp上,LongCat的智能体搜索能力(Pass@1)达到73.1分,性能已逼近顶级闭源模型 [23] - 根据性能对比表格,LongCat-Flash-Thinking-2601模型在多个关键评测中表现优异,例如在BrowseComp-zh(中文智能体搜索)上达到77.7分,在RW Search上达到79.5分,在多项工具调用任务(如72-Telecom)上达到99.3分 [24] - 模型架构为MoE(混合专家模型),总参数量为560B,激活参数量为27B [24] 未来展望与战略方向 - LongCat APP即将上线“探索本地生活”功能,让深度研究能力更聚焦于美团业务,成为专业的“AI地陪” [35] - 公司的发展路径表明,将AI能力充分嵌入已有生态(如美团的本地生活网络),能够产生前所未有的实用价值,精准连接用户需求 [34] - 该模式有望引发一场“真实性的质变”,未来用户或可将生活念头直接交由AI实现,形成“看攻略、一键出发”的新生活方式 [36]
元宝、千问轮番刷屏,“受伤”的却并非豆包
新浪财经· 2026-02-06 21:24
文章核心观点 - 腾讯元宝、阿里千问、字节豆包三大互联网巨头在春节前夕以AI应用为核心展开激烈流量争夺战 其竞争策略和生态协同能力各异 并可能重塑移动互联网格局 对美团、百度等传统巨头构成直接挑战 [1][13] 巨头春节AI营销策略与效果 - **阿里千问**:启动“春节30亿免单”活动 以“1分钱喝奶茶”为口号 活动上线4小时内订单量超200万 导致App崩溃 半日内从App Store免费榜第六位冲至第一位 [1][2] - **腾讯元宝**:投入10亿元红包进行拉新 活动使其在微信、微博等平台热度飙升 七麦数据显示其iPhone端下载量从2月2日起由21万蹿升至30万左右 [8] - **字节豆包**:未参与当前红包补贴大战 但凭借拟人化属性、方言支持等功能稳居App Store应用榜前三 并计划借助央视春晚互动实现用户规模的关键跃升 [11][12][13] 各AI应用的产品定位与竞争态势 - **阿里千问**:定位“AI办事” 直击本地生活服务刚需 通过免单活动培养用户“AI点外卖”、“AI购物”习惯 并已全面接入淘宝、支付宝、飞猪、高德等阿里生态 旨在成为超级流量入口 [6][10][16] - **腾讯元宝**:试水AI社交 但其“元宝派”功能因定位模糊、应用场景不明确 用户活跃度在初期尝鲜后出现下降 [10] - **字节豆包**:凭借独特的拟人化属性、语音视频聊天体验及对多地方言的支持 与元宝、千问形成差异化竞争 其用户增长未受当前营销战明显冲击 [11][12] 对传统互联网巨头的冲击与行业格局影响 - **对美团的冲击**:千问的30亿免单活动核心聚焦茶饮、外卖等本地生活场景 直接进攻美团核心腹地 旨在构建“AI+本地生活”闭环 美团虽紧急上线“问小团”AI搜索功能应战 但因AI技术场景化应用滞后且发现成本高 已失先机 [13][14][16] - **对百度的冲击**:元宝、千问、豆包均剑指AI时代的搜索入口 百度在春节期间推出5亿元红包活动引导用户使用文心助手 但存在感弱 其“搜索+AI”模式仍依赖传统搜索入口 在用户交互方式向“AI交互”转变的趋势下 核心搜索业务面临直接冲击 [13][16] 营销活动的策略与潜在挑战 - 千问采用“田忌赛马”策略 等待元宝先出牌后以奶茶免单“截胡” 并计划在2月13日后将20亿免单转为10亿现金红包 以亲友助力形式延续春节热度 [10][11] - 腾讯元宝的红包活动分享链接及口令在微信平台遭到封禁或限制 引发市场对腾讯内部协同能力的质疑 近五个交易日股价累计下跌近10% [4][6] - 瞬时涌入的巨大流量对千问的技术承接能力构成挑战 可能影响用户体验 [6] - 春节前夕启动的免单活动可能因核心用户离城返乡及部分服务暂停而影响持续性 [10]