Workflow
CatPaw
icon
搜索文档
王兴一鸣惊人!美团首个开源大模型追平DeepSeek-V3.1
猿大侠· 2025-09-02 12:20
模型性能表现 - 在Agent工具调用和指令遵循等基准测试中超过DeepSeek-V3.1、Qwen3 MoE-2507及Claude4 Sonnet [3] - 编程能力与Claude4 Sonnet相当 在TerminalBench测试中表现突出 [5] - 总参数量560B 激活参数动态范围为18.6B–31.3B 低于DeepSeek-V3.1(671B/A37B)和Kimi-K2(1T/A32B) [12][13] - 在数学题测试中解答完全正确 包括全国一卷圆锥曲线问题及复杂坐标计算 [22][23][24][26][32][33][35][36][39][42][46][47][50][51] - 成功绘制生物学卡尔文循环SVG示意图 展现多模态代码生成能力 [53][54] - 准确解答迷惑性量子力学问题 识别"薛定谔的死猫"陷阱并指出与原版实验区别 [58][59][61][62][63][64][65] 技术创新架构 - 采用Zero-computation Experts与Shortcut-connected MoE双重架构 通过恒等专家映射实现动态计算分配 [13][16] - 使用新路由架构优化专家模型调用 通过MoE与密集层通信重叠执行提升效率 [14] - 引入设备级负载均衡损失和PID控制器调节路由概率 避免序列级失衡 [16] - 规模化训练采用超参数迁移+模型生长初始化策略 用14层模型堆叠成28层加速收敛 [17] - 预训练使用20T token语料 中期扩展上下文窗口至128k 后期通过多Agent合成框架进行高难度工具使用训练 [17] - 推理阶段实现多步重叠调度器 使CPU调度与GPU计算交错 单张H800 GPU生成速度超过100 tokens/s [17][20] 训练效率与成本 - 在30天内完成20T token预训练 使用上万个加速卡且训练可用率达98.48% [20] - 输出成本约为0.7美元/百万token 在560B参数规模下实现高效推理 [20] - 相比同级模型在不同上下文长度下均实现更高单GPU吞吐和单用户速度 [20] 公司AI战略布局 - 2023年通过收购光年之外团队强化大模型研发能力 王慧文以顾问身份回归后领导GN06独立AI团队 [74][76][77] - 2024年明确"主动进攻"AI战略 推出AI编程应用NoCode和代码助手CatPaw 内部AI工具调用量从10%提升至68% [81][82][85] - 2024年研发投入211亿元 规模居国内第四 过去5年累计投入超1000亿元 [83] - 三层战略架构包括AI提升员工效率(AI at Work)、产品AI化(AI in Products)和自研大模型(Building LLM) [89] - 早期布局具身智能领域 投资宇树、星海图、银河通用等头部公司 [88] - AI应用覆盖情感陪伴(Wow)、图像生成(妙刷)、餐饮推荐(问小袋)、交互问答(米鲁)等多场景 [75][78][84]
王兴一鸣惊人!美团首个开源大模型追平DeepSeek-V3.1
量子位· 2025-09-01 12:39
模型性能表现 - 在Agent工具调用和指令遵循方面超越DeepSeek-V3.1、Qwen3 MoE-2507及Claude4 Sonnet [3] - 编程能力与Claude4 Sonnet相当 在TerminalBench基准测试中表现突出 [5] - 数学推理能力全面正确 成功解答全国一卷数学题并完整展示推导过程 [21][22][23][25][32][34][35][36][38][42][44][45][48][50] - 综合能力测试表现优异 可生成生物学卡尔文循环的SVG矢量图形代码 [51][52] - 具备强抗干扰能力 在Misguided Attention基准测试中准确识别"薛定谔死猫"问题的逻辑陷阱 [56][58][60][61][62][63] 技术创新架构 - 采用560B参数的MoE架构 结合"零计算专家"与Shortcut-connected MoE双重设计 [12] - 动态激活18.6B–31.3B参数 总参数量和激活参数量均低于DeepSeek-V3.1(671B/A37B)和Kimi-K2(1T/A32B) [11][12] - 通过零计算专家实现恒等映射 完全避免GEMM运算 配合PID控制器调节路由概率 [13][15] - 采用超参数迁移+模型生长初始化策略 用14层模型堆叠成28层checkpoint加速收敛 [16] - 实现多步重叠调度器 使CPU调度与GPU计算交错 单张H800GPU生成速度超过100 tokens/s [16][19] 训练效率与成本 - 在30天内完成20T token预训练 训练可用率达98.48% [19] - 成本控制显著 每百万输出token成本约0.7美元 [19] - 使用两阶段融合20T token语料预训练 中期扩展上下文窗口至128k [16] 公司AI战略布局 - 2023年通过收购光年之外团队切入大模型领域 2024年王慧文回归领导GN06独立AI团队 [73][75][76] - 2024年研发投入达211亿元 规模居国内第四 过去5年累计投入超1000亿元 [81] - 形成三层AI战略架构:AI工具提升10万员工效率、AI改造现有产品、自研大模型 [87] - 推出多款AI应用包括Wow情感陪伴、妙刷图像生成、NoCode编程及CatPaw开发者工具 [74][77][83] - 早期投资宇树、星海图等具身智能公司 2019年启动无人车配送项目 [71][86]
半年研发、1周上线,1秒200行代码爆发?美团研发负责人:靠小团队奇袭,模型和工程能力突破是核心
AI前线· 2025-08-09 13:32
美团NoCode AI编程工具核心观点 - AI编程工具正重塑软件开发 目标直指"开发民主化" 从代码补全助手升级为理解需求 生成框架 参与设计的"协作者" [2] - 美团推出首款AI Coding Agent产品NoCode 定位非技术用户 支持自然语言生成交互式App 与App构建器存在本质差异 [2][5][6] - 底层采用自研7B Apply专用模型 实现2000 tokens/s推理速度 通过小尺寸模型针对性优化平衡性能与效果 [4] - 当前50%新代码由AI生成 衡量指标聚焦AI增量代码占比与采纳率 开发者角色转向"调度员"指导AI完成编码 [10] - 产品矩阵包含NoCode与CatPaw 前者服务非技术用户 后者定位专业开发者 技术架构将逐步协同但暂不合并 [9][11] 技术实现与优化 - 模型工程层面优化算法 解决大模型吞吐速度瓶颈 7B模型实现1秒生成200行代码的高效输出 [4] - 上下文工程技术成为关键 优化Index效果与速度 集成云infra与自动化流程 提升输出稳定性 [8] - 支持多轮交互开发 用户对话轮数达几十至几百轮 通过精准diff与局部代码生成持续迭代 [7] - 解决"最后一公里"问题 已适配数据库存储与数据分析场景 未来扩展多技术栈与后台能力 [8] 产品定位与用户策略 - 目标用户为持续学习的非技术群体 但专业开发者占比达30% 产品设计强调创造力与想象力 [6][7] - 应对"氛围编程"质疑 通过rules/prompt规范组件版本 结合RL/SFT提升软件工程理解能力 [7] - 与Copilot对标产品CatPaw形成互补 后者具备更强ReAct能力 专有模型与复杂IDE开发链路 [9] - 商业化暂非重点 当前聚焦技术突破与用户体验 未来可能采用成本下降后的平衡模式 [12] 行业竞争格局 - 判断Cursor等工具将向NoCode方向延伸 但差异化仍存 竞争焦点转向remote agent架构 [11] - 行业面临生成代码冗余与维护挑战 但认为随着Agent演进会自然解决 管理AI比要求人类更容易 [6][10]
美团首款AI编程工具NoCode上线,集成自研千亿参数模型LongCat
搜狐财经· 2025-06-11 12:25
产品发布 - 美团正式发布首款AI Coding Agent产品NoCode,该产品为对话式AI编程工具,可通过自然语言交互自动完成编码任务并部署,适用于数据分析、产品原型设计、运营工具开发及门户网站生成等场景 [1] - NoCode集成美团自研千亿参数规模模型LongCat,该模型采用混合专家架构,在通用能力及代码生成等基准测试中达到一线水平,与GPT-4o、Claude-3.5-Sonnet、DeepSeek-V3-0324等模型表现相当 [1] - 模型针对Web前端开发进行优化,能高效理解和生成HTML、CSS、JavaScript等前端代码,为无代码开发提供支持 [1] 产品功能与应用 - NoCode在灰度测试阶段已被用户广泛应用于小游戏、点餐系统、养殖场监控系统等产品和工具开发 [2] - 正式发布的NoCode版本优化了开发、测试、部署及bug修复等流程问题,可显著简化研发流程和产品创作,特别适用于长交付周期项目 [2] - 目前美团每周约50%的新代码由AI生成,90%以上的工程师团队成员使用AI编程工具 [2] 战略意义 - 公司计划通过NoCode将编程工作简化,帮助中小商户降低IT化和数字化门槛,让更多用户体验AI技术带来的效率提升与创新乐趣 [3] - 未来公司将逐步开放更多自研AI产品能力,进一步推动技术普惠 [3] - 产品源自美团内部"黑客马拉松"活动,从立项到正式发布仅用半年时间 [2] 财务与研发 - 美团一季度研发投入58亿元,同比增长15% [1] - 针对外部用户的免费AI Coding应用NoCode已进入灰度测试,年内还将推出多个AI应用助手 [1]
美团发布首款AI编程工具 集成自研模型让0基础用户可轻松开发软件
新浪科技· 2025-06-10 16:29
产品发布 - 美团正式发布首款AI Coding Agent产品NoCode,该工具通过多轮自然语言交互自动完成编码任务并部署,适用于数据分析、产品原型设计、运营工具开发及门户网站生成等场景 [1] - NoCode集成美团自研千亿参数规模模型LongCat,采用混合专家架构,在通用能力及代码生成基准测试中达到一线水平,与GPT-4o、Claude-3.5-Sonnet、DeepSeek-V3-0324等模型表现相当 [1] - LongCat模型在跨学科多维能力评测基准MMLU-Pro上得分为77.43分,在编码能力评测基准LiveCodeBench(2408-2501)上Pass@1得分为46.24分 [1] 技术能力 - NoCode针对Web前端开发进行优化,能高效理解和生成HTML、CSS、JavaScript等前端代码,为无代码开发提供强力支持 [1] - 产品源自美团内部"黑客马拉松"活动,从立项到正式发布仅用半年时间,灰度测试阶段已被广泛应用于小游戏、点餐系统、养殖场监控系统等产品和工具开发 [2] - 正式发布的NoCode版本优化了开发、测试、部署及bug修复等流程问题,可显著简化研发流程和产品创作工作,特别适用于长交付周期项目 [2] 应用效果 - 在NoCode及另一款自研编程工具CatPaw支持下,美团每周约50%的新代码由AI生成,90%以上工程师团队成员使用AI编程工具 [2] - NoCode已成为美团员工重要的工作助手,公司希望通过开放该产品帮助中小商户降低IT化和数字化门槛,让更多用户体验AI技术带来的效率提升与创新乐趣 [2] - 未来公司将逐步开放更多自研AI产品能力,进一步推动技术普惠 [2]