文章核心观点 - 美团大模型LongCat(龙猫)新推出的“深度研究”(DeepResearch)功能,通过深度融合其本地生活领域的真实数据和工具链,在解决复杂、个性化的生活服务规划任务上展现出卓越的实用性和可靠性,重新定义了“AI+本地生活” [6][14][34] - LongCat在权威评测中,其“深度研究”功能的“开箱即用”程度和整体可用性已超越包括ChatGPT在内的主流通用型AI产品,标志着其在特定垂直领域的应用已达到领先水平 [16][17] - LongCat的技术架构强调真实场景训练与多智能体协作,通过独特的训练方法和校验机制,有效解决了大模型在长文本生成中的幻觉和逻辑断层问题,使其具备了接近专业研究者的复杂任务决策与推理能力 [22][23][28][31] 行业竞争与产品发布动态 - AI大模型领域竞争激烈,春节前后有多款重要模型发布或即将发布,包括kimi 2.5、Step 3.5 Flash、DeepSeek V4、GPT-5.3、Claude Sonnet 5、Qwen 3.5、GLM-5等 [1] - 美团LongCat作为大模型领域的后来者,凭借“速度快、工具调用出色”的实用主义路线快速追赶,于近期上线了“深度研究”功能 [4][5] LongCat深度研究功能的核心优势与市场验证 - 功能定位:专注于解决需要大量信息检索和深度本地化理解的实际生活难题,如旅行规划、礼品选购等,而非简单问答 [6] - 核心优势:背靠美团在本地生活领域沉淀的真实交易数据、用户消费反馈和商家经营数据,确保建议的可信度与实时性 [8] - 用户体验:生成的报告不仅提供信息,还包含预算方案、交通路线、避峰指南等可直接执行的建议,且信息来源可一键跳转至大众点评进行核查或下单 [8][9] - 市场验证:在一项覆盖全国36个城市60名用户的横向盲测中,LongCat生成的攻略在“保存分享率”指标上以31.1%位居第一(ChatGPT为16.7%),在“整体可用率”指标上达到61.1%(高于ChatGPT的42.8%) [16] LongCat的技术架构与实现原理 - 基础能力:具备超长程、高并发任务处理能力,支持最多400轮交互与256K上下文,能持续拆解复杂需求 [22] - 多智能体工作流:构建了信息收集(Search Agent)、研究分析(Report Agent)、可视化呈现(Render Agent)的专业化协作分工,以交付可直接使用的专业报告 [23] - 训练特色:强调“真实与原生”,利用美团本地生活的真实工具集(如POI搜索、地图规划)进行训练,使其在智能体搜索和工具调用方面表现突出 [25] - 生成架构:采用多步骤渐进式生成,先生成全局报告大纲,再通过“递归生成”策略逐章撰写,解决了长文本生成的逻辑断层与上下文遗忘问题 [28] - 校验机制:引入Rubrics-as-Reward机制,建立包含引用准确率、信息召回率等多维评分体系进行数据清洗,大幅减少模型幻觉 [31] - 跨域训练:采用“跨域知识融合的合版训练策略”,将垂直领域数据与通用语料、数学、代码数据联合训练,用代码和数学的严谨逻辑反向增强生活报告生成的条理性 [32] 性能表现与行业对标 - 在权威评测基准BrowseComp上,LongCat的智能体搜索能力(Pass@1)达到73.1分,性能已逼近顶级闭源模型 [23] - 根据性能对比表格,LongCat-Flash-Thinking-2601模型在多个关键评测中表现优异,例如在BrowseComp-zh(中文智能体搜索)上达到77.7分,在RW Search上达到79.5分,在多项工具调用任务(如72-Telecom)上达到99.3分 [24] - 模型架构为MoE(混合专家模型),总参数量为560B,激活参数量为27B [24] 未来展望与战略方向 - LongCat APP即将上线“探索本地生活”功能,让深度研究能力更聚焦于美团业务,成为专业的“AI地陪” [35] - 公司的发展路径表明,将AI能力充分嵌入已有生态(如美团的本地生活网络),能够产生前所未有的实用价值,精准连接用户需求 [34] - 该模式有望引发一场“真实性的质变”,未来用户或可将生活念头直接交由AI实现,形成“看攻略、一键出发”的新生活方式 [36]
决定了:过年攻略全都不过脑子,让AI去想
机器之心·2026-02-11 16:34