8次反复检查，美团上线开源并可体验的“重思考”模型

公司技术发布 - 美团LongCat团队于1月16日开源了其AI模型的升级版LongCat-Flash-Thinking-2601 [1] - 新模型在Agentic Search（智能体搜索）、Agentic Tool Use（智能体工具调用）、TIR（工具交互推理）等核心评测基准上达到开源模型最先进的水平 [1] - 该模型在依赖工具调用的随机复杂任务中性能超越了Claude-Opus-4.5-Thinking [1] - 新模型支持“重思考”模式可同时启动8个“大脑”执行任务 [1][2] 模型性能与特点 - 新模型在工具调用的泛化能力上优势明显可大幅度降低真实场景下新工具的适配训练成本 [1] - 实测显示系统能就复杂问题启动8个思考者独立分析并整合结论例如分析2010年冬季气候和锤子科技倒闭原因 [1][2] - 对于锤子科技倒闭系统整合分析后得出结论核心是资金链断裂深层原因包括产品定价过高、忽视供应链与成本控制、战略摇摆及创始人管理经验不足等 [2] 行业技术动态 - 2025年春节前后各大AI大模型逐步上线“深度思考”功能 [2] - 目前各大AI大模型的“深度思考”结果并非完全准确可能出现答非所问或产生虚幻结果 [2] - 美团新模型的“重思考”模式相当于系统进行8次独立思考再对结果进行复核 [2] 核心技术路径 - 团队采用“环境扩展+多环境强化学习”核心技术为模型打造了多样化的“高强度练兵场”构建了多套高质量训练环境 [3] - 在每套训练环境中集成了60余种工具形成密集依赖关系图谱与复杂联动以支撑高度复杂的任务场景 [3] - 实验证明训练环境越丰富模型在未知场景中的泛化能力越强 [3] - 团队针对性扩展自研强化学习基础设施实现大规模多环境智能体的稳定并行训练通过智能分配算力最大化提升训练效率与资源利用率 [3] - 团队从复杂度、多样性双维度严控训练任务配套专属数据库及优化方案杜绝模型“偏科”与训练漏洞 [3] 训练方法创新 - 为应对现实世界中API调用失败、返回异常信息等“噪声”问题团队在训练数据中主动注入多类噪声模拟相关失败场景 [4] - 采用课程学习的方式循序渐进地进行模型训练在训练过程中逐步增加噪声的类型与强度 [4]