UniScientist
搜索文档
科研AI出了个狠角色:开源30B小模型,硬刚Gemini和Claude
量子位· 2026-03-09 10:01
公司核心产品与技术 - 公司UniPat AI发布了一个名为UniScientist的开源项目,这是一个参数为30B的模型,旨在实现“提出假设-收集证据-执行可复现的推导-迭代验证直至结论成立”的完整科学研究闭环[2] - 该模型的核心突破在于将人工智能建模为一个动态系统,并通过自主构建的数据引擎,将开放式的科研难题转化为可验证的“单元测试”[5] - 模型在FrontierScience-Research和ResearchRubrics等权威科学研究榜单上,其表现匹敌甚至超越了参数量大一个数量级的顶尖闭源模型[3] 技术原理与创新 - 模型解决了当前AI在科研任务中普遍存在的“叙事推理”和从“结论”出发的逻辑陷阱问题,实现了真正的“自主科学研究”能力,能够在开放问题中提出假设、证伪推论、修正路径并沉淀为结构化成果[7][8][9][10] - 其数据引擎采用了“进化式多学科合成”方法,将开放式科研成果分解为多个封闭的、可独立验证的Rubric检查项,每个检查项都追求原子化、客观、可证据落地或可形式化推导[24][25][26] - 模型引入了“成果聚合目标”作为额外的训练目标,使模型学会比较、取舍和整合多份候选科研成果,从而产出更完整、更稳健的最终成果,这相当于将“集体科研智能”写入了训练过程[33][34][35] 性能表现与评测结果 - UniScientist-30B-A3B模型(一个仅有3B激活参数的小模型)在FrontierScience-Research评测中达到28.3分,超越了Claude Opus 4.5(17.5分)、Gemini 3 Pro(12.4分)、GPT-5.2 xhigh(25.2分)以及DeepSeek V3.2 w/tools和Seed 2.0 Pro w/tools(均为26.7分)[36][38] - 在成果聚合模式下,该模型的得分进一步提升至33.3分[37] - 在多项分布外的基准(如DeepResearch Bench、DeepResearch Bench II和ResearchRubrics)上,UniScientist的表现与一系列顶级闭源系统实力相当[39] - 即使在无工具的评测条件下,模型性能仍有显著提升,这表明其研究推理能力本身通过训练得到了增强,而非单纯依赖工具使用[40][41] 数据与训练 - 公司构建了高质量的训练数据集,其关键原则是让模型负责规模与多样性,让人类专家负责质量与可验证性[14][16] - 当前数据集已包含超过4700个研究级实例,每个实例附有20+条Rubric项,覆盖50+学科和400+研究方向,专家标注平均每条样本投入1-2小时[26] 未来发展方向 - 系统目前集成了代码解释器,将研究流程从叙事式推理升级为“测试-修正”的循环,但其能力主要集中在可复现推理与仿真计算范围内[44][45] - 公司明确下一步方向是将框架扩展到对真实实验与计算基础设施的受控编排与执行,包括大规模GPU任务的可靠调度以及湿实验流程的协调,以加速科学发现[46][47]
AI 真能做研究吗?UniPat AI开源UniScientist,用30B小模型给出肯定答案
机器之心· 2026-03-09 10:00
核心观点 - 公司UniPat AI发布并开源了UniScientist模型,该模型通过实现“假设-证据-验证”的完整科研流程闭环,使人工智能具备了自主进行科学研究的能力,而非仅生成看似研究的文本 [1][6][7] - 该模型以30B(300亿)的参数量,在多个科学研究基准评测中,其性能匹敌甚至超越了参数量大一个数量级的顶尖闭源模型,显示出其在研究智能方面的显著突破 [1][33] 模型能力与设计理念 - 模型的核心是实现了从提出假设、收集证据、执行可复现推导到迭代验证的完整科研闭环,解决了当前多数大模型仅停留在“叙事推理”和格式模仿的问题 [1][4][5][7] - 公司将开放式科研过程形式化为一个基于“主动证据整合”与“模型溯因”的动态系统,系统核心是不断演化的“证据状态”,并通过循环执行产生假说、获取证据、溯因更新三个动作来完成研究 [15][16][17] - 模型引入了“成果聚合目标”的训练,使其能够学会比较、取舍和整合针对同一问题的多份候选科研成果,从而产出更完整和稳健的最终成果,模拟了“集体科研智能” [29][30][31] - 模型集成了代码解释器,将研究流程升级为“测试-修正”循环,假设可以被实例化为可执行、可复现的计算实验,从而得到验证或修正 [39] 数据与训练方法 - 公司构建高质量科研训练数据的关键洞察在于利用“大模型擅长生成”与“人类专家擅长验证”的不对称性,采用模型负责规模与多样性、人类专家负责质量与可验证性的高效分工方式 [9][12] - 公司提出了“进化式多学科合成”数据引擎,其核心设计是将一份开放式科研成果分解为多个封闭的、可独立验证的评估项,每个评估项都追求原子化、客观且可证据落地或形式化推导 [20][21][22] - 当前构建的数据集已包含超过4,700个研究级实例,每个实例附有20条以上的评估项,覆盖50多个学科和400多个研究方向,专家标注平均每条样本投入1-2小时 [22] 性能表现 - 在FrontierScience-Research基准上,UniScientist-30B-A3B模型(仅3B激活参数)得分为28.3分,超越了Claude Opus 4.5(17.5分)、Gemini 3 Pro(12.4分)、GPT-5.2 xhigh completion模式(25.2分)以及工具调用模式下的DeepSeek V3.2(26.7分)和Seed 2.0 Pro(26.7分)[33] - 在成果聚合模式下,该模型在FrontierScience-Research上的得分进一步提升至33.3分 [33] - 在FrontierScience-Olympiad基准上,启用工具的UniScientist得分为71.0分,匹配Claude Opus 4.5,并超越了多个其他前沿模型 [33] - 在多项其他研究基准上,模型的表现与一系列顶级闭源系统相当 [33] - 即使在无工具使用的评测条件下,模型性能仍有显著提升,表明其研究推理能力本身得到了增强,而非单纯依赖工具调用 [34][35] 未来方向 - 系统的当前能力主要集中在可复现推理与仿真计算范围内,下一步方向是将框架扩展到对真实实验与计算基础设施的受控编排与执行,以加速科学发现 [40][41]