美团自研560B大模型并开源，性能赶超DeepSeek

模型发布与性能表现 - 美团正式推出龙猫大模型LongCat-Flash-Chat并在GitHub和Hugging Face平台开源该模型为5600亿参数的混合专家模型(MoE) [1] - 模型在30天内完成20万亿token训练实现单卡100+token/s的推理速度每百万token成本仅0.7美元 [1][4] - 模型性能与DeepSeek V3.1、Qwen3、GPT 4.1等顶尖模型相当部分领域实现超越支持128k长文本上下文 [1][4] 架构创新与资源优化 - 采用零计算专家机制动态分配计算资源将低信息token直接返回输出极大节省算力 [2] - 虽然总参数量达5600亿但处理任务时仅动态激活186亿至313亿参数平均约270亿实现成本与效率平衡 [2] - 引入快捷连接混合专家(ScMoE)机制扩大计算和通信重叠窗口实现计算与通信并行显著提升训推吞吐量 [3] 功能特性与应用能力 - 完成面向智能体能力的多阶段训练包括基座模型训练、增强推理与编码能力的中期训练及专注对话与工具使用的后训练 [3] - 具备强大Agent能力可专业编写爬虫脚本提示技术法律风险推荐学习资源并实现图文并茂的数据分析 [4] - 在开源社区中与DeepSeek V3.1、Qwen3、Kimi-K2、GPT 4.1等模型进行详细性能对比多方面追平行业翘楚 [4]