Workflow
深度思考模型
icon
搜索文档
蚂蚁集团开源万亿思考模型 Ring-2.5-1T,打破大模型“不可能三角”
观察者网· 2026-02-14 18:25
核心观点 - 蚂蚁集团开源了全球首个基于混合线性架构的万亿参数思考模型Ring-2.5-1T,在推理速度、深度思考能力和长程任务执行能力三个方面实现了突破,解决了行业长期面临的“不可能三角”难题 [1] 模型性能与突破 - 模型在数学竞赛中达到IMO金牌级别,获得35分(满分42分),在CMO中获得105分,远超国家集训队分数线87分和金牌线78分 [1][7] - 在32K以上长文本生成场景中,将访存规模降至上一代的1/10,生成吞吐量提升超3倍 [1] - 在IMOAnswerBench、AIME 26、HMMT 25、LiveCodeBench等高难度推理任务,以及Gaia2-search、Tau2-bench、SWE-Bench Verified等长时任务执行基准上,均达到开源最优水平 [5] - 在Heavy Thinking模式下,在多项数学竞赛和代码生成基准中超越了所有对比模型,包括闭源API模型GPT-5.2-thinking-high、Gemini-3.0-Pro-preview-thinking-high、Claude-Opus-4.5-Extended-Thinking等 [4][5] - 与上一代Ring-1T相比,新模型在推理逻辑严谨性、高级证明技巧运用和答案表述完整性上均有明显进步 [7] 技术创新与架构 - 模型基于Ling 2.5架构,采用混合线性注意力机制,以1:7的比例混搭MLA(多头潜在注意力)和Lightning Linear Attention两种注意力模块 [2] - 该设计源自Ring-flash-linear-2.0技术路线,通过增量训练将原有GQA层分别转化为Lightning Linear Attention和MLA,前者负责长程推理的吞吐量,后者极致压缩KV Cache [2] - 为防止模型表达能力受损,团队适配了QK Norm和Partial RoPE等特性 [2] - 激活参数量从上一代的51B提升至63B,但凭借线性时间复杂度的特性,推理效率大幅提升 [2] - 与同为1T参数量级但仅有32B激活参数的Kimi K2架构相比,Ling 2.5架构在长序列推理任务中的吞吐优势显著,且效率优势随生成长度增加而持续扩大 [2] - 在思维训练层面,模型在RLVR基础上引入了密集奖励机制,逐步考察推理过程中每一个环节的严谨性 [4] - 团队引入了大规模全异步Agentic RL训练,增强了模型在搜索、编码等长链条任务上的自主执行能力 [4] 应用与部署 - 模型使得长程推理从“烧钱又烧显卡”的重资产操作,转变为可规模化部署的轻量级方案 [4] - 模型已经适配Claude Code和OpenClaw等主流智能体框架,支持多步规划与工具调用 [7] - 模型权重与推理代码已在Hugging Face、ModelScope等平台同步开放,官方Chat体验页和API服务也将在近期上线 [7] 行业影响与趋势 - 目前业界主流路径多采用MoE架构以节省算力,头部模型如DeepSeek、Kimi、MiniMax均采用此架构 [1] - 随着AI大模型应用从短对话向长文档处理、跨文件代码理解、复杂任务规划等场景延伸,深度思考模型面临的效率瓶颈愈发突出 [8] - Ring-2.5-1T通过底层架构重构,提供了一条兼顾性能、成本与扩展性的技术路径 [8] 公司其他产品发布 - 蚂蚁集团同期还发布了扩散语言模型LLaDA2.1,采用非自回归并行解码技术,推理速度达到535 tokens/s,在HumanEval+编程任务上达到892 tokens/s,并具备Token编辑与逆向推理能力 [7] - 同期发布了全模态大模型Ming-flash-omni-2.0,在视觉、音频、文本的统一表征与生成上实现突破,支持实时感官交互 [7] - 蚂蚁inclusionAI团队的目标是将这些能力做成可复用的底座方案,为开发者提供统一的能力入口 [8] - 后续团队还将在视频时序理解、复杂图像编辑和长音频实时生成等方向持续发力,推动全模态技术规模化落地 [8]
具身场景新框架!Embodied-Reasoner:攻克复杂具身交互任务
具身智能之心· 2025-06-21 20:06
研究背景与动机 - 深度思考模型(如OpenAI的o1模型)在数学和编程任务上表现出色,但在具身领域的有效性尚未充分探索[7] - 具身任务需要模型具备空间理解、时间推理和持续自我反思能力,这与纯逻辑推理任务存在显著差异[7] - 研究旨在将深度思考能力扩展到具身交互任务,解决多模态交互和多样化推理模式等挑战[7] 核心框架设计 - 提出Embodied-Reasoner框架,整合视觉搜索、推理和行动能力以应对具身交互任务[3] - 设计数据引擎合成包含情境分析、任务规划等多样化思考过程的具身推理轨迹[3] - 开发三阶段训练流程(模仿学习→拒绝采样调整→反思调整)逐步提升模型能力[3] 任务与数据构建 - 基于AI2-THOR模拟器构建120个室内场景和2100个可交互物体[8] - 设计搜索/操纵/运输/复合四类任务,通过LLMs自动生成符合场景约束的指令[8] - 合成9390个任务指令及64k第一人称视角图像、8M思考标记的训练数据[12][13] 模型性能表现 - 在真实世界任务中成功率56.7%,显著高于OpenAI o1(50%)和o3-mini(43.4%)[17] - 复合任务性能比GPT-4o提升39.9%,长时域任务中推理标记量自适应增加[18] - 通过回忆和反思机制减少重复搜索行为,搜索效率提升24%[18] 技术实现细节 - 动作序列合成通过关联图推导关键动作,并插入额外搜索过程增强真实性[10] - 思考模式分析显示任务规划(35%)和空间推理(28%)出现频率最高[14] - 测试集包含809个案例和25个超长时域任务,采用成功率/搜索效率/完整性三指标评估[16] 未来发展方向 - 探索模型在更多具身任务类型的应用场景[19] - 提升真实世界环境中的泛化能力和适应性[19] - 优化数据引擎和训练流程以进一步提高性能[19]
一场文心大模型的「AI马拉松」
机器之心· 2025-05-22 18:25
百度AI战略与文心大模型技术演进 - 公司坚持长期主义与灵活技术路径的平衡,这是其在科技革命中的制胜之道 [1] - 2025年模型能力仍是核心竞争力,多模态数据资源(图像、视频)仍有挖掘空间 [2][3] - 强化学习新范式推动推理模型在数学、代码、长程规划等领域取得进展 [4] 文心大模型的技术突破 - 文心4.5 Turbo多模态大模型超越GPT-4o,X1 Turbo深度思考模型领先DeepSeek R1/V3 [5] - X1 Turbo在第三方评测中表现突出:24项能力测试16项满分,综合评级"4+级",国内首款通过信通院推理能力评估的大模型 [10][12][14] - 成本优势显著:X1价格为DeepSeek R1的50%,X1 Turbo进一步降至25% [17][20] 多模态技术布局 - 公司2018年即突破多模态深度语义理解,现技术演进至多模态大模型,训练效率提升1.98倍,理解效果提升31.21% [22][25] - 多模态建模核心技术包括异构专家建模、自适应分辨率编码、时空重排列位置编码等 [30] - 多模态数据建设难度高,需结合知识图谱与闭环数据合成体系 [36] 深度思考与强化学习创新 - X1 Turbo基于"系统2"慢思考技术进化,融合PARL强化学习框架 [28] - 自反馈增强框架实现"训练-生成-评估-增强"闭环,多元奖励机制融合多种评价标准 [31] - 复合思维链技术模拟人类思维模式,提升复杂任务解决能力 [31] 飞桨生态与全栈布局 - 飞桨框架3.0作为技术"腰部",协同模型层与算力层实现降本增效 [37][38] - 全栈布局涵盖昆仑芯片、飞桨框架、文心大模型及上层应用 [40] - 生态合作反哺稀缺数据,赋能产业智能化升级 [38] 未来技术方向 - 重点布局多模态与智能体,后者将升级为能自主规划的行动系统 [40] - 技术普惠战略推动模型成本降低,X1 Turbo定价仅为竞品25% [17][40]
火山总裁谭待:很多Agent的能力还停留在类似自动驾驶的L1阶段
快讯· 2025-04-17 19:17
行业发展方向 - 目前很多Agent的能力仍停留在初级水平,真正实现具备更强反思、规划与自主决策能力的Agent是行业发展的方向 [1] - 深度思考模型是构建Agent的基础,模型需要具备思考、计划和反思能力,并且支持多模态,才能更好地处理复杂任务 [1] 公司动态 - 字节跳动旗下火山总裁谭待在火山引擎2025FORCE LINK AI创新巡展上表示,豆包1.5深度思考模型正式发布 [1] - 豆包1.5深度思考模型在数学、编程、科学推理、创意写作等通用任务表现突出,并上线了具备视觉推理能力的视觉版 [1] - 视觉版模型能像人类一样对看到的事物进行联想和思考 [1]
从DeepSeek R1的复现看深度思考模型的未来|ML-Summit 2025
AI科技大本营· 2025-03-31 14:55
2025全球机器学习技术大会(ML Summit 2025)概况 - 大会将于2025年4月18-19日在上海虹桥西郊庄园丽笙大酒店召开 [1] - 由CSDN & Boolan联合主办,汇聚超50位学术界和工业界顶尖专家 [1] - 设有12大技术专题,覆盖AI领域前沿热点,并设置AI企业创新展区展示最新技术产品和解决方案 [8] 大会核心演讲内容 - 新浪微博首席科学家张俊林将分享《从DeepSeek R1的复现看深度思考模型的未来》 [1] - 演讲将系统梳理DeepSeek R1开源后的各类复现研究,涵盖SFT阶段轻量适配与RL阶段创新实践 [6] - 重点剖析两阶段训练模式:冷启动微调结合多领域数据优化的SFT阶段,以及运用GRPO强化学习与全场景对齐实现能力跃迁 [6] 深度思考模型技术探讨 - 大模型时代Scaling Law仍是核心驱动力,Grok 3案例显示增大模型尺寸的传统做法性价比值得思考 [5] - 提出用S型曲线叠加解释大模型预训练、后训练及推理阶段的Scaling Law现象 [5] - 探讨关键技术问题包括:RL的Scaling Law边界、影响SFT阶段蒸馏方法效果的关键因素、如何科学解释"Aha Moment"现象 [6] 行业影响与展望 - 大会是推动AI生态融合、促进行业协同创新的重要契机 [8] - 旨在探索AI未来发展方向,推动技术在更广泛场景落地 [8] - DeepSeek R1开源引发学术界和工业界复现研究热潮,为探索更强大的深度思考模型提供新视角 [4][5]