重思考模式
搜索文档
8次反复检查,美团上线开源并可体验的“重思考”模型
新京报· 2026-01-16 21:18
公司技术发布 - 美团LongCat团队于1月16日开源了其AI模型的升级版LongCat-Flash-Thinking-2601 [1] - 新模型在Agentic Search(智能体搜索)、Agentic Tool Use(智能体工具调用)、TIR(工具交互推理)等核心评测基准上达到开源模型最先进的水平 [1] - 该模型在依赖工具调用的随机复杂任务中性能超越了Claude-Opus-4.5-Thinking [1] - 新模型支持“重思考”模式可同时启动8个“大脑”执行任务 [1][2] 模型性能与特点 - 新模型在工具调用的泛化能力上优势明显可大幅度降低真实场景下新工具的适配训练成本 [1] - 实测显示系统能就复杂问题启动8个思考者独立分析并整合结论例如分析2010年冬季气候和锤子科技倒闭原因 [1][2] - 对于锤子科技倒闭系统整合分析后得出结论核心是资金链断裂深层原因包括产品定价过高、忽视供应链与成本控制、战略摇摆及创始人管理经验不足等 [2] 行业技术动态 - 2025年春节前后各大AI大模型逐步上线“深度思考”功能 [2] - 目前各大AI大模型的“深度思考”结果并非完全准确可能出现答非所问或产生虚幻结果 [2] - 美团新模型的“重思考”模式相当于系统进行8次独立思考再对结果进行复核 [2] 核心技术路径 - 团队采用“环境扩展+多环境强化学习”核心技术为模型打造了多样化的“高强度练兵场”构建了多套高质量训练环境 [3] - 在每套训练环境中集成了60余种工具形成密集依赖关系图谱与复杂联动以支撑高度复杂的任务场景 [3] - 实验证明训练环境越丰富模型在未知场景中的泛化能力越强 [3] - 团队针对性扩展自研强化学习基础设施实现大规模多环境智能体的稳定并行训练通过智能分配算力最大化提升训练效率与资源利用率 [3] - 团队从复杂度、多样性双维度严控训练任务配套专属数据库及优化方案杜绝模型“偏科”与训练漏洞 [3] 训练方法创新 - 为应对现实世界中API调用失败、返回异常信息等“噪声”问题团队在训练数据中主动注入多类噪声模拟相关失败场景 [4] - 采用课程学习的方式循序渐进地进行模型训练在训练过程中逐步增加噪声的类型与强度 [4]
美团又上新模型,8个Thinker齐开工,能顶个诸葛亮?
机器之心· 2026-01-16 16:13
模型发布与核心特性 - 美团于1月15日发布了其最新大模型LongCat-Flash-Thinking-2601,这是一款拥有5600亿(560B)参数、基于MoE架构的大规模推理模型 [1] - 该模型的核心创新之一是引入了“重思考模式”,能够同时启动8路并行思考,并对结果进行总结以得出更全面可靠的结论 [4] - 模型的智能体能力获得重大提升,在工具调用、搜索和集成推理等基准测试中达到顶尖性能,并在分布外真实场景中实现了泛化能力的显著提升 [6] 技术架构与创新 - 模型技术底座为560B参数的高性能混合专家架构,并继承了领域并行训练方案 [42] - 核心技术改进包括“重思考模式”和“智能体能力”提升,其中重思考模式通过并行调用同一模型8次来实现高强度并行思考与交叉验证 [45][49] - 为提升智能体能力,公司引入了环境规模扩展、多环境大规模强化学习以及课程学习等方法,并系统分析了环境噪声以增强模型稳健性 [46][51][60] - 公司还提出了一种全新的智能体模型泛化能力评测方法,通过自动化流程随机生成复杂任务来检验模型在未知场景下的适应能力 [8][9][10] 实测性能表现 - 在数理逻辑与推理题实测中,重思考模式的8个Thinker能协同工作,通过代码验证、穷举等方法解决复杂问题,最终给出可靠答案 [13][15][18] - 该模式在开放性问题上(如评选歌手)也展现出多样性,不同Thinker给出不同答案,最终由模型汇总成多维度评估结果 [21][22][23] - 模型具备较强的编程能力,能够根据指令生成如Flappy Bird、康威生命游戏等完整可运行的程序 [26][29][30] - 在专门的智能体工具调用测试中,模型需处理包含近30个工具、具有复杂依赖关系的“营养补给方案”任务,展现了处理环环相扣逻辑的能力 [33] 竞品对比与优势 - 在工具调用任务的对比测试中,LongCat-Flash-Thinking-2601与Claude 4.5 Opus同台竞技,LongCat执行时间为265.9秒,标准覆盖率达到100%,而Claude执行时间为224.4秒,标准覆盖率为80% [36][38] - 具体而言,LongCat成功完成了所有5项评估标准,而Claude未能成功创建用户健康档案 [38] - 对比显示,LongCat在处理工具依赖关系时展现出更强的稳定性 [38] - 模型对环境的噪声和不确定性展现出强大的适应能力,在带噪声的评测集中,经过稳健训练的LongCat模型表现优于未经过稳健训练的模型及Claude [60] 未来发展与行业意义 - 公司即将发布ZigZag Attention注意力机制,据称能实现100万token的上下文长度,并已用于训练模型的一个分支版本 [63] - 美团大模型自2025年9月首次亮相后,保持了每月一更的开源节奏,从强调响应速度到专注逻辑,再到覆盖多模态,能力不断扩容 [65] - 此次模型升级聚焦于智能体与思考能力的全面提升,标志着从理解世界到融入真实世界的一次跃迁 [67] - 公司的长期追求在于利用技术又好又快地解决真实世界问题,最终实现“模型即服务” [68]