美团又上新模型，8个Thinker齐开工，能顶个诸葛亮？

模型发布与核心特性 - 美团于1月15日发布了其最新大模型LongCat-Flash-Thinking-2601，这是一款拥有5600亿（560B）参数、基于MoE架构的大规模推理模型 [1] - 该模型的核心创新之一是引入了“重思考模式”，能够同时启动8路并行思考，并对结果进行总结以得出更全面可靠的结论 [4] - 模型的智能体能力获得重大提升，在工具调用、搜索和集成推理等基准测试中达到顶尖性能，并在分布外真实场景中实现了泛化能力的显著提升 [6] 技术架构与创新 - 模型技术底座为560B参数的高性能混合专家架构，并继承了领域并行训练方案 [42] - 核心技术改进包括“重思考模式”和“智能体能力”提升，其中重思考模式通过并行调用同一模型8次来实现高强度并行思考与交叉验证 [45][49] - 为提升智能体能力，公司引入了环境规模扩展、多环境大规模强化学习以及课程学习等方法，并系统分析了环境噪声以增强模型稳健性 [46][51][60] - 公司还提出了一种全新的智能体模型泛化能力评测方法，通过自动化流程随机生成复杂任务来检验模型在未知场景下的适应能力 [8][9][10] 实测性能表现 - 在数理逻辑与推理题实测中，重思考模式的8个Thinker能协同工作，通过代码验证、穷举等方法解决复杂问题，最终给出可靠答案 [13][15][18] - 该模式在开放性问题上（如评选歌手）也展现出多样性，不同Thinker给出不同答案，最终由模型汇总成多维度评估结果 [21][22][23] - 模型具备较强的编程能力，能够根据指令生成如Flappy Bird、康威生命游戏等完整可运行的程序 [26][29][30] - 在专门的智能体工具调用测试中，模型需处理包含近30个工具、具有复杂依赖关系的“营养补给方案”任务，展现了处理环环相扣逻辑的能力 [33] 竞品对比与优势 - 在工具调用任务的对比测试中，LongCat-Flash-Thinking-2601与Claude 4.5 Opus同台竞技，LongCat执行时间为265.9秒，标准覆盖率达到100%，而Claude执行时间为224.4秒，标准覆盖率为80% [36][38] - 具体而言，LongCat成功完成了所有5项评估标准，而Claude未能成功创建用户健康档案 [38] - 对比显示，LongCat在处理工具依赖关系时展现出更强的稳定性 [38] - 模型对环境的噪声和不确定性展现出强大的适应能力，在带噪声的评测集中，经过稳健训练的LongCat模型表现优于未经过稳健训练的模型及Claude [60] 未来发展与行业意义 - 公司即将发布ZigZag Attention注意力机制，据称能实现100万token的上下文长度，并已用于训练模型的一个分支版本 [63] - 美团大模型自2025年9月首次亮相后，保持了每月一更的开源节奏，从强调响应速度到专注逻辑，再到覆盖多模态，能力不断扩容 [65] - 此次模型升级聚焦于智能体与思考能力的全面提升，标志着从理解世界到融入真实世界的一次跃迁 [67] - 公司的长期追求在于利用技术又好又快地解决真实世界问题，最终实现“模型即服务” [68]