Workflow
妙刷
icon
搜索文档
王兴一鸣惊人!美团首个开源大模型追平DeepSeek-V3.1
猿大侠· 2025-09-02 12:20
模型性能表现 - 在Agent工具调用和指令遵循等基准测试中超过DeepSeek-V3.1、Qwen3 MoE-2507及Claude4 Sonnet [3] - 编程能力与Claude4 Sonnet相当 在TerminalBench测试中表现突出 [5] - 总参数量560B 激活参数动态范围为18.6B–31.3B 低于DeepSeek-V3.1(671B/A37B)和Kimi-K2(1T/A32B) [12][13] - 在数学题测试中解答完全正确 包括全国一卷圆锥曲线问题及复杂坐标计算 [22][23][24][26][32][33][35][36][39][42][46][47][50][51] - 成功绘制生物学卡尔文循环SVG示意图 展现多模态代码生成能力 [53][54] - 准确解答迷惑性量子力学问题 识别"薛定谔的死猫"陷阱并指出与原版实验区别 [58][59][61][62][63][64][65] 技术创新架构 - 采用Zero-computation Experts与Shortcut-connected MoE双重架构 通过恒等专家映射实现动态计算分配 [13][16] - 使用新路由架构优化专家模型调用 通过MoE与密集层通信重叠执行提升效率 [14] - 引入设备级负载均衡损失和PID控制器调节路由概率 避免序列级失衡 [16] - 规模化训练采用超参数迁移+模型生长初始化策略 用14层模型堆叠成28层加速收敛 [17] - 预训练使用20T token语料 中期扩展上下文窗口至128k 后期通过多Agent合成框架进行高难度工具使用训练 [17] - 推理阶段实现多步重叠调度器 使CPU调度与GPU计算交错 单张H800 GPU生成速度超过100 tokens/s [17][20] 训练效率与成本 - 在30天内完成20T token预训练 使用上万个加速卡且训练可用率达98.48% [20] - 输出成本约为0.7美元/百万token 在560B参数规模下实现高效推理 [20] - 相比同级模型在不同上下文长度下均实现更高单GPU吞吐和单用户速度 [20] 公司AI战略布局 - 2023年通过收购光年之外团队强化大模型研发能力 王慧文以顾问身份回归后领导GN06独立AI团队 [74][76][77] - 2024年明确"主动进攻"AI战略 推出AI编程应用NoCode和代码助手CatPaw 内部AI工具调用量从10%提升至68% [81][82][85] - 2024年研发投入211亿元 规模居国内第四 过去5年累计投入超1000亿元 [83] - 三层战略架构包括AI提升员工效率(AI at Work)、产品AI化(AI in Products)和自研大模型(Building LLM) [89] - 早期布局具身智能领域 投资宇树、星海图、银河通用等头部公司 [88] - AI应用覆盖情感陪伴(Wow)、图像生成(妙刷)、餐饮推荐(问小袋)、交互问答(米鲁)等多场景 [75][78][84]
王兴一鸣惊人!美团首个开源大模型追平DeepSeek-V3.1
量子位· 2025-09-01 12:39
模型性能表现 - 在Agent工具调用和指令遵循方面超越DeepSeek-V3.1、Qwen3 MoE-2507及Claude4 Sonnet [3] - 编程能力与Claude4 Sonnet相当 在TerminalBench基准测试中表现突出 [5] - 数学推理能力全面正确 成功解答全国一卷数学题并完整展示推导过程 [21][22][23][25][32][34][35][36][38][42][44][45][48][50] - 综合能力测试表现优异 可生成生物学卡尔文循环的SVG矢量图形代码 [51][52] - 具备强抗干扰能力 在Misguided Attention基准测试中准确识别"薛定谔死猫"问题的逻辑陷阱 [56][58][60][61][62][63] 技术创新架构 - 采用560B参数的MoE架构 结合"零计算专家"与Shortcut-connected MoE双重设计 [12] - 动态激活18.6B–31.3B参数 总参数量和激活参数量均低于DeepSeek-V3.1(671B/A37B)和Kimi-K2(1T/A32B) [11][12] - 通过零计算专家实现恒等映射 完全避免GEMM运算 配合PID控制器调节路由概率 [13][15] - 采用超参数迁移+模型生长初始化策略 用14层模型堆叠成28层checkpoint加速收敛 [16] - 实现多步重叠调度器 使CPU调度与GPU计算交错 单张H800GPU生成速度超过100 tokens/s [16][19] 训练效率与成本 - 在30天内完成20T token预训练 训练可用率达98.48% [19] - 成本控制显著 每百万输出token成本约0.7美元 [19] - 使用两阶段融合20T token语料预训练 中期扩展上下文窗口至128k [16] 公司AI战略布局 - 2023年通过收购光年之外团队切入大模型领域 2024年王慧文回归领导GN06独立AI团队 [73][75][76] - 2024年研发投入达211亿元 规模居国内第四 过去5年累计投入超1000亿元 [81] - 形成三层AI战略架构:AI工具提升10万员工效率、AI改造现有产品、自研大模型 [87] - 推出多款AI应用包括Wow情感陪伴、妙刷图像生成、NoCode编程及CatPaw开发者工具 [74][77][83] - 早期投资宇树、星海图等具身智能公司 2019年启动无人车配送项目 [71][86]