科学发现(Scientific Discovery)
搜索文档
顶尖模型离“科学家”还差得远?AI4S亟待迈向2.0时代
机器之心· 2026-01-30 18:43
行业趋势与战略判断 - 当前科学智能(AI for Science, AI4S)在蛋白质折叠等特定领域取得里程碑成就,但《自然》杂志研究指出过度依赖现有深度学习模型可能局限新知识探索并阻碍创新[1] - 一项系统性评估联合10个不同科学领域的100位科学家构建评测题目,结果显示前沿模型在通用科学推理任务中得分可达50分(满分100),但在各类专业推理任务中得分骤降至15-30分,表明存在明显的“木桶效应”[1][71] - 行业正处在通用人工智能(AGI)前夕,但面临“通专融合”智能环节的缺失,亟需推动科学智能从AI4S 1.0向2.0迭代,即迈向AGI4S[2] - 通往AGI的战略路径是“通专融合”,即构建能够动态融合直觉式“系统1”与逻辑式“系统2”的智能架构,在保持通用认知基座的同时,能在特定任务上实现专家级专精[10][11] - 2024年末OpenAI o1与2025年初DeepSeek-R1的出现,通过在大模型上应用强化学习提升逻辑推理能力,验证了“通专融合”路径预判的正确性[14] - 科学发现被视为推理智能的终极前沿和AI探索的绝对前沿,因其对AI提出了处理组合爆炸(如10^60量级搜索空间)、分布外知识泛化以及稀疏延迟奖励的三重极限挑战[15][19] 核心技术架构:SAGE - 为将“通专融合”战略落地,上海人工智能实验室提出了“智者”SAGE技术架构,这是一个旨在弥合广泛泛化与深度专精鸿沟的递归循环统一认知生态系统[17][18] - SAGE架构由三个逻辑耦合的层次构成:底部的基础模型层致力于知识与推理能力的解耦;中间的融合协同层动态协调快慢思考;顶层的探索进化层赋予AI主动能动性[18][20] - 该架构通过双向循环实现全栈进化:底层表征自下而上支撑推理,顶层探索获得的高水平反馈自上而下回流,将“未知”转化为新的训练信号,推动认知策略持续进化[18] 基础模型层创新 - 记忆解码器(Memory Decoder)作为预训练、即插即用的独立组件,旨在解决现有大模型将事实记忆与逻辑推理混淆的问题[22] - 该组件采用与基础模型并行运行并融合输出分布的机制,用紧凑的参数化模型替代传统非参数检索器,在无需修改基础模型参数、无在线检索开销下实现高效知识注入[22] - 实验数据显示,其推理开销仅为基础模型的1.28倍,显著低于现有主流方案,成功填补了高密度知识供给与推理引擎解耦之间的技术鸿沟[22] 融合协同层算法突破 - 针对复杂推理需要密集过程监督但人工标注成本高昂的矛盾,提出了隐式奖励强化学习算法PRIME,利用策略模型与参考模型间的统计差异,隐式习得Q函数,从而推导出密集的逐步奖励信号[28][31] - 在AIME 2024数据集上,PRIME使模型准确率提升23.4%;在AMC数据集上提升27.7%;在MATH-500等测试中也取得显著增长[38] - 研究发现强化学习训练中策略熵会急剧下降导致“熵坍缩”,使模型过早自信并停止探索,而验证性能与熵呈现显著的对数线性相关[39][40] - 提出了精准化、局部化的熵控制方案,应用该策略后,模型在保持高探索能力的同时显著提升了下游任务准确率,该方法已被Intern-S1等多个头部机构采纳[40] - 为克服传统强化学习以奖励最大化为目标导致的“模式崩溃”,引入了FlowRL,将学习目标从“奖励最大化”重构为“分布匹配”,使模型学习所有有效推理路径的概率分布[47][48] - 实验显示,FlowRL生成的分布与目标分布的KL散度大幅降低至0.11(传统方法为8.68);在32B模型上,其数学推理准确率达48.39%,较GRPO提升10个百分点;生成的解决方案多样性评分约为PPO的2倍[50] 探索进化层机制 - 提出了测试时强化学习框架,其核心假设是“共识即正确性”,在推理时对多个候选解采样,将多数投票结果作为代理奖励,对模型参数进行在线更新,实现了无监督环境下的自我增强[56][58] - 实测数据显示,搭载TTRL的Qwen-2.5-Math-7B模型在AIME 2024数据集上准确率实现了159%的相对提升,性能甚至逼近使用真实标签训练的理论上限[60][62] - 研发了大规模交互验证环境InternBootcamp,覆盖8大任务类别、超1000种多样化环境,支持将专业领域任务转化为可验证环境[61] - 基于InternBootcamp的实验发现,当任务类型数量从8种扩展至512种时,模型性能持续上升,证实了与任务数量增长相关的规模化定律存在[66] - 在具身智能领域,提出了极端数据稀缺下的在线强化学习框架SimpleVLA-RL,仅用极少数据与计算资源便取得了与先进模型比肩的性能,实现了智能体在物理世界中的“具身化”演进[64][69] 公司实践与基础设施 - 研发了“书生”科学多模态大模型Intern-S1,作为SAGE架构在科学领域的体现,旨在构建“可深度专业化通才”[77] - Intern-S1在基础层采用动态分词器与专用编码器,原生支持DNA序列、蛋白质结构等10余种模态,在科学数据上的压缩率较GPT-OSS等通用模型提升1.7倍,并基于2.5万亿高质量科学Token进行预训练[77] - 测评结果显示,Intern-S1在通用能力上对齐顶尖开源模型,而在涵盖化学、生物、材料等9大领域的科学性能上,全面超越了包括GPT-5和Grok-4在内的顶尖闭源模型[79] - 构建了“书生”科学发现平台Intern-Discovery,这是一个将Intern-S1与海量数据、2000+专业工具及湿实验室验证环境深度融合的智能体系统,实现了从假设生成到实验验证的闭环[80] - 平台引入了科学智能上下文协议,以标准化调度科学资源和工作流;并通过分层记忆模块沉淀研究模式、记录实验细节并整合长期知识[86] - 在气候科学领域,Intern-Discovery自主调用30余种工具,分析20年多模态数据,编写4000多行专业代码,成功发现被人类专家忽略的关联并推导出新方程,有效修正了系统性偏差[81] - 在生物医学领域,虚拟疾病生物学家“元生”成功在数据稀疏条件下发现并验证了具有高临床潜力的隐藏靶点,展示了全流程智能化能力[84]
周伯文:缺乏专业推理能力是当下前沿模型的一大短板
新浪财经· 2026-01-28 18:32
人工智能发展阶段的演进 - 人工智能发展呈现阶段性跃迁,可分为三个关键阶段:ANI(狭义人工智能)、ABI(广义人工智能)与AGI(通用人工智能)[1] - ANI在2016年已趋于成熟,通往AGI的必经之路是率先实现具备跨领域泛化能力的ABI[2] - ChatGPT的问世验证了从有监督学习转向自监督学习、从任务级联系统转向端到端架构、从判别式工具进化为生成式助手这三方面技术范式变革,宣告了ABI阶段的到来[2] 通用人工智能(AGI)的核心路径 - 通往AGI的下一步不仅仅是计算量的堆叠,“通专融合”是一条可探索的路径[2] - 真正的AGI必须打破“专业性”与“通用性”的二元对立,构建能够动态融合直觉式“系统1”与逻辑式“系统2”的智能架构[2][3] - 目标是构建一种能够在保持通用认知基座的同时,通过持续学习与深度推理在特定任务上实现专家级专精的智能[3] - 上海AI实验室提出的智者SAGE技术架构旨在弥合广泛泛化与深度专精的鸿沟[3] 科学发现作为AI的下一个前沿 - 人工智能的下一个前沿领域是科学发现(Scientific Discovery, SD)[4] - 科学发现是推理智能的终极考验,涵盖了从假设生成、实验验证到理论总结的全过程[4] - 科学发现对AI提出三重挑战:处理“已知的未知”(如组合爆炸问题)、泛化“未知的未知”、应对稀疏与延迟的实验奖励反馈[4] - 尽管AI for Science(AI4S)在特定领域取得成就,但过度依赖现有深度学习模型可能局限新知识的探索边界,甚至阻碍创新[4] 当前AI模型在科学发现中的能力短板 - 传统深度学习擅长处理数据充足、定义明确的任务,但难以应对科学发现中“未知的未知”[5] - 一项由上海人工智能实验室联合100位科学家进行的评估显示,前沿模型在通用科学推理任务中得分可达50分(满分100分)[5] - 但在专项文献检索、具体实验方案设计等专业推理任务中,模型得分骤降至15-30分[5] - 这种明显的“木桶效应”表明,科学发现全周期的效能正受制于专业推理能力的薄弱环节[6] 从AI4S向AGI4S的迭代演进 - 需要整合通用推理与专业能力,推动科学智能从AI4S向AGI4S迭代[6] - 从AI4S迈向AGI4S旨在推动研究者、研究工具与研究对象的协同演进,通过三者相互作用创造革命性工具,推动科研范式变革[6] - 当前已身处通用人工智能的前夕,但仍缺失通专融合的智能,亟需推动科学智能从1.0向2.0迭代演进[1][6] - 实现AGI的可行路径是发展“可深度专业化通用模型”,其关键挑战在于需要低成本、可规模化的密集反馈,并具备持续学习、主动探索及提供多视角解决方案的能力[6]