Workflow
美团“Building LLM ”进展首度曝光:发布并开源LongCat
环球网·2025-09-01 13:07

模型架构与参数 - 采用创新性混合专家模型架构 总参数560B 激活参数范围18.6B-31.3B 平均激活27B [2] - 引入零计算专家机制 实现算力按需分配和高效利用 [4] - 层间铺设跨层通道 使通信和计算能并行 提高训练和推理效率 [5] 性能表现 - 在多项基准测试中性能比肩主流领先模型 智能体任务具突出优势 [2] - 在H800上实现单用户100+ tokens/s的推理速度 [5] - 输出成本低至5元/百万token 同时保持极致生成速度 [7] 训练优化 - 训练采用PID控制器实时微调专家偏置 将单token平均激活量稳定在约27B [4] - 通过超参迁移和改进训练方式 在30天内完成高效训练 [5] - 自建Agentic评测集指导数据策略 使用多智能体方法生成高质量轨迹数据 [7] 应用场景 - 更快的推理速度特别适合耗时较长的复杂智能体应用 [2] - 模型开源是公司Building LLM战略进展的首度曝光 [4] - 公司已发布AI Coding Agent工具NoCode AI经营决策助手袋鼠参谋等AI应用 [4]