模型发布与开源 - 美团开源首款自研推理模型LongCat-Flash-Thinking 距离其首款大语言模型开源仅24天 [1] - 模型已发布于GitHub和Hugging Face平台 并提供技术报告和在线体验链接 [3] - 实际体验中模型推理和回答长度可能超出体验链接限制 导致答案不完整 [3] 技术架构与训练效率 - 基于自研DORA强化学习基础设施训练 训练速度提升至原来3倍以上 增幅超过200% [1] - 采用课程学习方式构建能力 经历推理增强的中期训练和面向推理的有监督微调 [5] - 强化学习采用三管齐下方案:系统层面通过DORA框架支持异步训练与灵活调度 算法层面改良PPO方法 奖励机制引入生成式奖励模型GenRM [9][10] - 在数万张加速卡上 RL训练速度达传统同步方式3倍以上 FLOPs投入约为预训练阶段20% [9] 性能表现与基准测试 - 在通用问答、数学推理、通用推理测试中与GPT-5-Thinking、Gemini2.5-Pro等主流模型基本持平 [1] - 数学推理能力突出:MATH-500取得99.2%接近满分 HMMT-25达83.7% AIME-24达93.3% [12][13] - 逻辑推理方面:ARC-AGI达50.3% 超越OpenAI-o3与Gemini2.5-Pro ZebraLogic达95.5% [13] - 编程能力:LiveCodeBench达79.4% 紧追GPT-5 [14] - 工具增强推理:τ²-Bench-Airline实现67.5%最佳成绩 AIME-25基准测试平均token消耗减少64.5% [1][15] - 定理证明领域:MiniF2F测试达67.6% 比次优模型高出18% [18] - 安全性测试在有害内容、犯罪、虚假信息及隐私四类风险中均获最高分 [18] 应用场景与业务协同 - 重点优化形式推理和Agent推理任务 通过双路径推理框架筛选工具依赖型高质量问题 [7] - 技术提升针对性服务于工具使用、指令遵循和安全性 可能应用于美团消费者Agent产品和AI搜索业务 [19] - 分布式沙箱系统支持数百万次并发代码执行 覆盖20多种编程语言 [10]
美团王兴,又开源一款大模型