Workflow
王兴一鸣惊人!美团首个开源大模型追平DeepSeek-V3.1
美团美团(HK:03690) 量子位·2025-09-01 12:39

模型性能表现 - 在Agent工具调用和指令遵循方面超越DeepSeek-V3.1、Qwen3 MoE-2507及Claude4 Sonnet [3] - 编程能力与Claude4 Sonnet相当 在TerminalBench基准测试中表现突出 [5] - 数学推理能力全面正确 成功解答全国一卷数学题并完整展示推导过程 [21][22][23][25][32][34][35][36][38][42][44][45][48][50] - 综合能力测试表现优异 可生成生物学卡尔文循环的SVG矢量图形代码 [51][52] - 具备强抗干扰能力 在Misguided Attention基准测试中准确识别"薛定谔死猫"问题的逻辑陷阱 [56][58][60][61][62][63] 技术创新架构 - 采用560B参数的MoE架构 结合"零计算专家"与Shortcut-connected MoE双重设计 [12] - 动态激活18.6B–31.3B参数 总参数量和激活参数量均低于DeepSeek-V3.1(671B/A37B)和Kimi-K2(1T/A32B) [11][12] - 通过零计算专家实现恒等映射 完全避免GEMM运算 配合PID控制器调节路由概率 [13][15] - 采用超参数迁移+模型生长初始化策略 用14层模型堆叠成28层checkpoint加速收敛 [16] - 实现多步重叠调度器 使CPU调度与GPU计算交错 单张H800GPU生成速度超过100 tokens/s [16][19] 训练效率与成本 - 在30天内完成20T token预训练 训练可用率达98.48% [19] - 成本控制显著 每百万输出token成本约0.7美元 [19] - 使用两阶段融合20T token语料预训练 中期扩展上下文窗口至128k [16] 公司AI战略布局 - 2023年通过收购光年之外团队切入大模型领域 2024年王慧文回归领导GN06独立AI团队 [73][75][76] - 2024年研发投入达211亿元 规模居国内第四 过去5年累计投入超1000亿元 [81] - 形成三层AI战略架构:AI工具提升10万员工效率、AI改造现有产品、自研大模型 [87] - 推出多款AI应用包括Wow情感陪伴、妙刷图像生成、NoCode编程及CatPaw开发者工具 [74][77][83] - 早期投资宇树、星海图等具身智能公司 2019年启动无人车配送项目 [71][86]