Workflow
加速训练营(InternBootcamp)
icon
搜索文档
通专融合,思维链还透明,上海AI Lab为新一代大模型打了个样
机器之心· 2025-05-24 12:07
AI发展新阶段 - AI下半场将聚焦问题定义与评估体系重构,行业需设计更有效的模型评测体系弥补AI能力与真实需求的差距[2] - 上海AI Lab构建"加速训练营"(InternBootcamp),通过评价建模与大模型交互提供反馈,使大模型持续进化获得解决复杂推理任务的能力[2] - 书生・思客(InternThinker)实现奥赛级数学、科学对象理解与推理、算法编程、棋类游戏、智力谜题等多专业任务同步学习演进,并在多任务混合强化学习中出现智能"涌现时刻"[2] 围棋领域突破 - InternThinker成为我国首个既具备围棋专业水平又能展示透明思维链的大模型,在实验室科研人员的布局中围棋成为科学探索的"试应手"[2] - InternThinker在围棋任务上打破思维"黑盒",运用自然语言就对弈过程进行讲解,用户可与之对弈并获取每一步棋背后的推理过程和决策依据[4] - InternThinker评价李世石"神之一手"为"相当刁钻",并给出应对策略,同时具备多样化语言风格如鼓励"以攻代守的好手"或毒舌锐评"不是棋的选择"[5][6] - 新生代世界围棋冠军王星昊九段评价InternThinker棋力在职业3-5段之间,分析能力优秀[8] 技术架构创新 - InternBootcamp包含超1000个验证环境覆盖复杂逻辑推理任务,能批量化规范化生成难度可控的推理任务并与大模型交互提供反馈[11] - InternThinker在包括数十个任务的测试集上平均能力超过o3-mini、DeepSeek-R1及Claude-3.7-Sonnet等国内外主流推理模型[14][15] - 研究人员观察到在多任务混合训练过程中出现强化学习的"涌现时刻",模型通过多个任务混合强化学习成功获得单一任务无法得到的奖励[18] - 上海AI Lab提出通专融合技术路线,通过基础模型层、融合协同层和探索进化层"三层"技术路径打造通用人工智能[22][23] 算法与框架突破 - 设计强化学习算法PRIME结合高密度监督信号,获取比现有方法高出7%的性能提升,在AIME、MATH等竞赛难度数学题上7B模型能力显著超越GPT-4o[24] - 推出多任务强化学习技术框架MoR实现多任务强化学习混合训练,构建基于结果奖励的强化学习新范式OREAL解决大模型三大困局[24] - 开发测试时强化学习(TTRL)框架探索AI自主进化路径,能在没有准确标签情况下进行奖励估计,减少人工标注依赖[24] - 构建分子逆合成新方法Retro-R1,仅使用1万条强化学习数据通过200步训练实现大模型在逆合成推理能力的升级[24]
大模型首次打破围棋思维「黑盒」,打通科学发现新路径!上海AI Lab发布新一代InternThinker
量子位· 2025-05-23 20:17
围棋AI突破 - 围棋作为衡量AI专业能力的代表性任务,其复杂性和对人类智能的体现具有独特价值[1] - 当前AI在围棋领域虽取得棋力、效率等进步,但推理过程仍为"黑盒",无法用人类语言解释思考过程[1][5] - 上海AI Lab发布新一代书生·思客(InternThinker),成为我国首个具备围棋专业水平且能展示透明思维链的大模型[3] - InternThinker能自然语言点评棋局,如对李世石"神之一手"给出"相当刁钻……重新确立中央控制权"的分析和L10应对策略[4][6] - 该模型具备多样化语言风格,既能鼓励"以攻代守的好手",也能毒舌锐评"不是棋的选择"[7] - 职业棋手评价其棋力在职业3-5段之间,解说思考过程的能力为首次见到[10] InternBootcamp训练体系 - InternBootcamp是为模型打造的"加速训练营",包含超1000个验证环境覆盖复杂逻辑推理任务[12][14] - 通过代码智能体自动化构造,可批量化生成奥赛数学、算法编程、棋类游戏等难度可控的推理任务[14] - 多任务混合强化学习出现"涌现时刻":单一任务无法获得的奖励通过混合训练后成功实现[21] - 混合训练使模型建立任务间关联,如Tapa任务通过融合学习其他任务思考方式后获得正向反馈[21] 通专融合技术路线 - 上海AI Lab提出通专融合技术路线,解决专业化与通用性相互制约的困境[25] - 采用"三层"技术路径:基础模型层构建通用能力,融合协同层打造专家级能力,探索进化层实现AI自我进化[25] - 创新"记忆体+解码器"架构,记忆体负责领域知识记忆(专),解码器负责通用语言组织(通)[26] - 测试时强化学习(TTRL)框架可在无准确标签情况下进行奖励估计,推动强化学习向无监督方向扩展[27] - 构建OREAL强化学习新范式,解决稀疏奖励等三大困局,在7B/32B模型上实现推理能力再提升[28] 多任务性能表现 - InternThinker通过混合强化学习,在数十个任务测试集上平均能力超过o3-mini等国内外主流推理模型[15] - 在特定任务中性能远超当前其他推理大模型[15][18] - PRIME算法在AIME等数学题上,用少量数据使7B模型能力显著超越GPT-4o[28] - MoR框架实现数学解答、科学问答等多任务强化学习的混合训练[28]