Workflow
美团首个大模型被爆成功跑通国产化训练路径,可在国产加速卡上进行
观察者网·2025-09-01 21:29

模型发布与开源 - 美团于9月1日正式发布并开源LongCat-Flash-Chat模型 同步上线官网 在Github和Hugging Face平台开放访问 [1] - 模型采用创新性混合专家模型架构 总参数规模达560B 激活参数范围18.6B-31.3B 平均激活27B参数 [1][3] - 通过零计算专家机制实现算力按需分配 采用PID控制器实时微调专家偏置 将单token平均激活量稳定在27B [3] 技术架构创新 - 引入跨层通道设计 使MoE通信与计算并行化 显著提升训练和推理效率 [4] - 采用超参迁移和模型层叠加训练方式 结合多策略保障训练稳定性 实现30天内高效完成训练 [4] - 自建Agentic评测集指导数据策略 使用多智能体方法生成多样化高质量轨迹数据 [6] 性能表现 - 在H800上实现单用户100+tokens/s的推理速度 生成速度达100 token/s [4][6] - 输出成本低至5元/百万token 在保持极致生成速度的同时实现成本优势 [6] - 多项基准测试显示其性能比肩主流领先模型 在智能体任务中具备突出优势 [1] 战略背景 - 模型发布与公司AI战略三层框架直接相关 包括AI at work、AI in products和Building LLM [3] - 此次开源是Building LLM进展的首度曝光 此前已发布AI Coding Agent工具NoCode、AI经营决策助手袋鼠参谋等应用 [3]