Workflow
智者SAGE
icon
搜索文档
顶尖模型离“科学家”还差得远?AI4S亟待迈向2.0时代
机器之心· 2026-01-30 18:43
行业趋势与战略判断 - 当前科学智能(AI for Science, AI4S)在蛋白质折叠等特定领域取得里程碑成就,但《自然》杂志研究指出过度依赖现有深度学习模型可能局限新知识探索并阻碍创新[1] - 一项系统性评估联合10个不同科学领域的100位科学家构建评测题目,结果显示前沿模型在通用科学推理任务中得分可达50分(满分100),但在各类专业推理任务中得分骤降至15-30分,表明存在明显的“木桶效应”[1][71] - 行业正处在通用人工智能(AGI)前夕,但面临“通专融合”智能环节的缺失,亟需推动科学智能从AI4S 1.0向2.0迭代,即迈向AGI4S[2] - 通往AGI的战略路径是“通专融合”,即构建能够动态融合直觉式“系统1”与逻辑式“系统2”的智能架构,在保持通用认知基座的同时,能在特定任务上实现专家级专精[10][11] - 2024年末OpenAI o1与2025年初DeepSeek-R1的出现,通过在大模型上应用强化学习提升逻辑推理能力,验证了“通专融合”路径预判的正确性[14] - 科学发现被视为推理智能的终极前沿和AI探索的绝对前沿,因其对AI提出了处理组合爆炸(如10^60量级搜索空间)、分布外知识泛化以及稀疏延迟奖励的三重极限挑战[15][19] 核心技术架构:SAGE - 为将“通专融合”战略落地,上海人工智能实验室提出了“智者”SAGE技术架构,这是一个旨在弥合广泛泛化与深度专精鸿沟的递归循环统一认知生态系统[17][18] - SAGE架构由三个逻辑耦合的层次构成:底部的基础模型层致力于知识与推理能力的解耦;中间的融合协同层动态协调快慢思考;顶层的探索进化层赋予AI主动能动性[18][20] - 该架构通过双向循环实现全栈进化:底层表征自下而上支撑推理,顶层探索获得的高水平反馈自上而下回流,将“未知”转化为新的训练信号,推动认知策略持续进化[18] 基础模型层创新 - 记忆解码器(Memory Decoder)作为预训练、即插即用的独立组件,旨在解决现有大模型将事实记忆与逻辑推理混淆的问题[22] - 该组件采用与基础模型并行运行并融合输出分布的机制,用紧凑的参数化模型替代传统非参数检索器,在无需修改基础模型参数、无在线检索开销下实现高效知识注入[22] - 实验数据显示,其推理开销仅为基础模型的1.28倍,显著低于现有主流方案,成功填补了高密度知识供给与推理引擎解耦之间的技术鸿沟[22] 融合协同层算法突破 - 针对复杂推理需要密集过程监督但人工标注成本高昂的矛盾,提出了隐式奖励强化学习算法PRIME,利用策略模型与参考模型间的统计差异,隐式习得Q函数,从而推导出密集的逐步奖励信号[28][31] - 在AIME 2024数据集上,PRIME使模型准确率提升23.4%;在AMC数据集上提升27.7%;在MATH-500等测试中也取得显著增长[38] - 研究发现强化学习训练中策略熵会急剧下降导致“熵坍缩”,使模型过早自信并停止探索,而验证性能与熵呈现显著的对数线性相关[39][40] - 提出了精准化、局部化的熵控制方案,应用该策略后,模型在保持高探索能力的同时显著提升了下游任务准确率,该方法已被Intern-S1等多个头部机构采纳[40] - 为克服传统强化学习以奖励最大化为目标导致的“模式崩溃”,引入了FlowRL,将学习目标从“奖励最大化”重构为“分布匹配”,使模型学习所有有效推理路径的概率分布[47][48] - 实验显示,FlowRL生成的分布与目标分布的KL散度大幅降低至0.11(传统方法为8.68);在32B模型上,其数学推理准确率达48.39%,较GRPO提升10个百分点;生成的解决方案多样性评分约为PPO的2倍[50] 探索进化层机制 - 提出了测试时强化学习框架,其核心假设是“共识即正确性”,在推理时对多个候选解采样,将多数投票结果作为代理奖励,对模型参数进行在线更新,实现了无监督环境下的自我增强[56][58] - 实测数据显示,搭载TTRL的Qwen-2.5-Math-7B模型在AIME 2024数据集上准确率实现了159%的相对提升,性能甚至逼近使用真实标签训练的理论上限[60][62] - 研发了大规模交互验证环境InternBootcamp,覆盖8大任务类别、超1000种多样化环境,支持将专业领域任务转化为可验证环境[61] - 基于InternBootcamp的实验发现,当任务类型数量从8种扩展至512种时,模型性能持续上升,证实了与任务数量增长相关的规模化定律存在[66] - 在具身智能领域,提出了极端数据稀缺下的在线强化学习框架SimpleVLA-RL,仅用极少数据与计算资源便取得了与先进模型比肩的性能,实现了智能体在物理世界中的“具身化”演进[64][69] 公司实践与基础设施 - 研发了“书生”科学多模态大模型Intern-S1,作为SAGE架构在科学领域的体现,旨在构建“可深度专业化通才”[77] - Intern-S1在基础层采用动态分词器与专用编码器,原生支持DNA序列、蛋白质结构等10余种模态,在科学数据上的压缩率较GPT-OSS等通用模型提升1.7倍,并基于2.5万亿高质量科学Token进行预训练[77] - 测评结果显示,Intern-S1在通用能力上对齐顶尖开源模型,而在涵盖化学、生物、材料等9大领域的科学性能上,全面超越了包括GPT-5和Grok-4在内的顶尖闭源模型[79] - 构建了“书生”科学发现平台Intern-Discovery,这是一个将Intern-S1与海量数据、2000+专业工具及湿实验室验证环境深度融合的智能体系统,实现了从假设生成到实验验证的闭环[80] - 平台引入了科学智能上下文协议,以标准化调度科学资源和工作流;并通过分层记忆模块沉淀研究模式、记录实验细节并整合长期知识[86] - 在气候科学领域,Intern-Discovery自主调用30余种工具,分析20年多模态数据,编写4000多行专业代码,成功发现被人类专家忽略的关联并推导出新方程,有效修正了系统性偏差[81] - 在生物医学领域,虚拟疾病生物学家“元生”成功在数据稀疏条件下发现并验证了具有高临床潜力的隐藏靶点,展示了全流程智能化能力[84]