Workflow
深度思考模型
icon
搜索文档
具身场景新框架!Embodied-Reasoner:攻克复杂具身交互任务
具身智能之心· 2025-06-21 20:06
研究背景与动机 - 深度思考模型(如OpenAI的o1模型)在数学和编程任务上表现出色,但在具身领域的有效性尚未充分探索[7] - 具身任务需要模型具备空间理解、时间推理和持续自我反思能力,这与纯逻辑推理任务存在显著差异[7] - 研究旨在将深度思考能力扩展到具身交互任务,解决多模态交互和多样化推理模式等挑战[7] 核心框架设计 - 提出Embodied-Reasoner框架,整合视觉搜索、推理和行动能力以应对具身交互任务[3] - 设计数据引擎合成包含情境分析、任务规划等多样化思考过程的具身推理轨迹[3] - 开发三阶段训练流程(模仿学习→拒绝采样调整→反思调整)逐步提升模型能力[3] 任务与数据构建 - 基于AI2-THOR模拟器构建120个室内场景和2100个可交互物体[8] - 设计搜索/操纵/运输/复合四类任务,通过LLMs自动生成符合场景约束的指令[8] - 合成9390个任务指令及64k第一人称视角图像、8M思考标记的训练数据[12][13] 模型性能表现 - 在真实世界任务中成功率56.7%,显著高于OpenAI o1(50%)和o3-mini(43.4%)[17] - 复合任务性能比GPT-4o提升39.9%,长时域任务中推理标记量自适应增加[18] - 通过回忆和反思机制减少重复搜索行为,搜索效率提升24%[18] 技术实现细节 - 动作序列合成通过关联图推导关键动作,并插入额外搜索过程增强真实性[10] - 思考模式分析显示任务规划(35%)和空间推理(28%)出现频率最高[14] - 测试集包含809个案例和25个超长时域任务,采用成功率/搜索效率/完整性三指标评估[16] 未来发展方向 - 探索模型在更多具身任务类型的应用场景[19] - 提升真实世界环境中的泛化能力和适应性[19] - 优化数据引擎和训练流程以进一步提高性能[19]
一场文心大模型的「AI马拉松」
机器之心· 2025-05-22 18:25
百度AI战略与文心大模型技术演进 - 公司坚持长期主义与灵活技术路径的平衡,这是其在科技革命中的制胜之道 [1] - 2025年模型能力仍是核心竞争力,多模态数据资源(图像、视频)仍有挖掘空间 [2][3] - 强化学习新范式推动推理模型在数学、代码、长程规划等领域取得进展 [4] 文心大模型的技术突破 - 文心4.5 Turbo多模态大模型超越GPT-4o,X1 Turbo深度思考模型领先DeepSeek R1/V3 [5] - X1 Turbo在第三方评测中表现突出:24项能力测试16项满分,综合评级"4+级",国内首款通过信通院推理能力评估的大模型 [10][12][14] - 成本优势显著:X1价格为DeepSeek R1的50%,X1 Turbo进一步降至25% [17][20] 多模态技术布局 - 公司2018年即突破多模态深度语义理解,现技术演进至多模态大模型,训练效率提升1.98倍,理解效果提升31.21% [22][25] - 多模态建模核心技术包括异构专家建模、自适应分辨率编码、时空重排列位置编码等 [30] - 多模态数据建设难度高,需结合知识图谱与闭环数据合成体系 [36] 深度思考与强化学习创新 - X1 Turbo基于"系统2"慢思考技术进化,融合PARL强化学习框架 [28] - 自反馈增强框架实现"训练-生成-评估-增强"闭环,多元奖励机制融合多种评价标准 [31] - 复合思维链技术模拟人类思维模式,提升复杂任务解决能力 [31] 飞桨生态与全栈布局 - 飞桨框架3.0作为技术"腰部",协同模型层与算力层实现降本增效 [37][38] - 全栈布局涵盖昆仑芯片、飞桨框架、文心大模型及上层应用 [40] - 生态合作反哺稀缺数据,赋能产业智能化升级 [38] 未来技术方向 - 重点布局多模态与智能体,后者将升级为能自主规划的行动系统 [40] - 技术普惠战略推动模型成本降低,X1 Turbo定价仅为竞品25% [17][40]
火山总裁谭待:很多Agent的能力还停留在类似自动驾驶的L1阶段
快讯· 2025-04-17 19:17
行业发展方向 - 目前很多Agent的能力仍停留在初级水平,真正实现具备更强反思、规划与自主决策能力的Agent是行业发展的方向 [1] - 深度思考模型是构建Agent的基础,模型需要具备思考、计划和反思能力,并且支持多模态,才能更好地处理复杂任务 [1] 公司动态 - 字节跳动旗下火山总裁谭待在火山引擎2025FORCE LINK AI创新巡展上表示,豆包1.5深度思考模型正式发布 [1] - 豆包1.5深度思考模型在数学、编程、科学推理、创意写作等通用任务表现突出,并上线了具备视觉推理能力的视觉版 [1] - 视觉版模型能像人类一样对看到的事物进行联想和思考 [1]
从DeepSeek R1的复现看深度思考模型的未来|ML-Summit 2025
AI科技大本营· 2025-03-31 14:55
2025全球机器学习技术大会(ML Summit 2025)概况 - 大会将于2025年4月18-19日在上海虹桥西郊庄园丽笙大酒店召开 [1] - 由CSDN & Boolan联合主办,汇聚超50位学术界和工业界顶尖专家 [1] - 设有12大技术专题,覆盖AI领域前沿热点,并设置AI企业创新展区展示最新技术产品和解决方案 [8] 大会核心演讲内容 - 新浪微博首席科学家张俊林将分享《从DeepSeek R1的复现看深度思考模型的未来》 [1] - 演讲将系统梳理DeepSeek R1开源后的各类复现研究,涵盖SFT阶段轻量适配与RL阶段创新实践 [6] - 重点剖析两阶段训练模式:冷启动微调结合多领域数据优化的SFT阶段,以及运用GRPO强化学习与全场景对齐实现能力跃迁 [6] 深度思考模型技术探讨 - 大模型时代Scaling Law仍是核心驱动力,Grok 3案例显示增大模型尺寸的传统做法性价比值得思考 [5] - 提出用S型曲线叠加解释大模型预训练、后训练及推理阶段的Scaling Law现象 [5] - 探讨关键技术问题包括:RL的Scaling Law边界、影响SFT阶段蒸馏方法效果的关键因素、如何科学解释"Aha Moment"现象 [6] 行业影响与展望 - 大会是推动AI生态融合、促进行业协同创新的重要契机 [8] - 旨在探索AI未来发展方向,推动技术在更广泛场景落地 [8] - DeepSeek R1开源引发学术界和工业界复现研究热潮,为探索更强大的深度思考模型提供新视角 [4][5]