美团自研560B大模型并开源,性能赶超DeepSeek
模型发布与性能表现 - 美团正式推出龙猫大模型LongCat-Flash-Chat并在GitHub和Hugging Face平台开源 该模型为5600亿参数的混合专家模型(MoE) [1] - 模型在30天内完成20万亿token训练 实现单卡100+token/s的推理速度 每百万token成本仅0.7美元 [1][4] - 模型性能与DeepSeek V3.1、Qwen3、GPT 4.1等顶尖模型相当 部分领域实现超越 支持128k长文本上下文 [1][4] 架构创新与资源优化 - 采用零计算专家机制动态分配计算资源 将低信息token直接返回输出 极大节省算力 [2] - 虽然总参数量达5600亿 但处理任务时仅动态激活186亿至313亿参数 平均约270亿 实现成本与效率平衡 [2] - 引入快捷连接混合专家(ScMoE)机制 扩大计算和通信重叠窗口 实现计算与通信并行 显著提升训推吞吐量 [3] 功能特性与应用能力 - 完成面向智能体能力的多阶段训练 包括基座模型训练、增强推理与编码能力的中期训练及专注对话与工具使用的后训练 [3] - 具备强大Agent能力 可专业编写爬虫脚本 提示技术法律风险 推荐学习资源 并实现图文并茂的数据分析 [4] - 在开源社区中与DeepSeek V3.1、Qwen3、Kimi-K2、GPT 4.1等模型进行详细性能对比 多方面追平行业翘楚 [4]