加速训练营（InternBootcamp）

搜索文档

机器之心· 2025-05-24 12:07

AI发展新阶段 - AI下半场将聚焦问题定义与评估体系重构，行业需设计更有效的模型评测体系弥补AI能力与真实需求的差距[2] - 上海AI Lab构建"加速训练营"(InternBootcamp)，通过评价建模与大模型交互提供反馈，使大模型持续进化获得解决复杂推理任务的能力[2] - 书生・思客(InternThinker)实现奥赛级数学、科学对象理解与推理、算法编程、棋类游戏、智力谜题等多专业任务同步学习演进，并在多任务混合强化学习中出现智能"涌现时刻"[2] 围棋领域突破 - InternThinker成为我国首个既具备围棋专业水平又能展示透明思维链的大模型，在实验室科研人员的布局中围棋成为科学探索的"试应手"[2] - InternThinker在围棋任务上打破思维"黑盒"，运用自然语言就对弈过程进行讲解，用户可与之对弈并获取每一步棋背后的推理过程和决策依据[4] - InternThinker评价李世石"神之一手"为"相当刁钻"，并给出应对策略，同时具备多样化语言风格如鼓励"以攻代守的好手"或毒舌锐评"不是棋的选择"[5][6] - 新生代世界围棋冠军王星昊九段评价InternThinker棋力在职业3-5段之间，分析能力优秀[8] 技术架构创新 - InternBootcamp包含超1000个验证环境覆盖复杂逻辑推理任务，能批量化规范化生成难度可控的推理任务并与大模型交互提供反馈[11] - InternThinker在包括数十个任务的测试集上平均能力超过o3-mini、DeepSeek-R1及Claude-3.7-Sonnet等国内外主流推理模型[14][15] - 研究人员观察到在多任务混合训练过程中出现强化学习的"涌现时刻"，模型通过多个任务混合强化学习成功获得单一任务无法得到的奖励[18] - 上海AI Lab提出通专融合技术路线，通过基础模型层、融合协同层和探索进化层"三层"技术路径打造通用人工智能[22][23] 算法与框架突破 - 设计强化学习算法PRIME结合高密度监督信号，获取比现有方法高出7%的性能提升，在AIME、MATH等竞赛难度数学题上7B模型能力显著超越GPT-4o[24] - 推出多任务强化学习技术框架MoR实现多任务强化学习混合训练，构建基于结果奖励的强化学习新范式OREAL解决大模型三大困局[24] - 开发测试时强化学习(TTRL)框架探索AI自主进化路径，能在没有准确标签情况下进行奖励估计，减少人工标注依赖[24] - 构建分子逆合成新方法Retro-R1，仅使用1万条强化学习数据通过200步训练实现大模型在逆合成推理能力的升级[24]

通专融合

多任务混合强化学习

人工智能

书生・思客（InternThinker）

加速训练营（InternBootcamp）

加速训练营（InternBootcamp）

大模型首次打破围棋思维「黑盒」，打通科学发现新路径！上海AI Lab发布新一代InternThinker

量子位· 2025-05-23 20:17

允中发自凹非寺量子位 | 公众号 QbitAI 围棋因其独特的复杂性和对人类智能的深刻体现，可作为衡量AI专业能力最具代表性的任务之一。目前，AI虽然在棋力、效率、通用性等方面均取得显著成绩，但其具体推理过程仍处于"黑盒"之中，更无法用人类语言解释其思考过程和结果。大模型具备良好的自然语言交互性，如何通过提升大模型的推理能力，实现围棋专业能力突破，是摆在科研人员面前的一道难题。针对这个问题，上海人工智能实验室（上海AI Lab）全新发布了新一代书生·思客（InternThinker）。基于创造性构建的"加速训练营" （InternBootcamp）以及一系列底层技术新进展，InternThinker专业推理能力大幅提升，成为我国首个既具备围棋专业水平，又能展示透明思维链的大模型。即便面对李世石的"神之一手"（李世石在AlphaGO交战的第四盘78手下在L11，被称为"神之一手"），InternThinker也能给出正确应对策略。思维链透明，自然语言点评"神之一手" 围棋作为一项具有四千多年历史的智力竞技项目，因其独特的复杂性和对人类智能的深刻体现，可作为衡量人工智能专业 ...

加速训练营（InternBootcamp）

加速训练营（InternBootcamp）