ACRA方法
搜索文档
西湖大学开发AI科学家,实现全自动科学发现,两周搞定人类科学家三年工作
生物世界· 2025-10-13 16:15
DeepScientist系统概述 - 西湖大学工学院张岳教授团队开发了名为DeepScientist的AI科学家系统,该系统具备完整的科研能力,无需人类干预,是首个经大规模实证研究证明能在前沿科学任务上渐进式超越人类科学家最先进水平的AI系统[3] - DeepScientist将科学发现全周期建模为目标驱动的贝叶斯优化问题,采用迭代工作流程和持续扩展的先验研究知识记忆库,智能平衡探索未知可能性和利用已有成果[8] - 该系统标志着人工智能从人类的科研助手向成为人类真正的科研合作伙伴迈出了至关重要的一步[4] 核心工作机制 - 系统核心创新在于三阶段探索循环:策略与假设阶段分析记忆库中的数千条结构化记录并生成新假设[9] - 实施与验证阶段使用获取函数选择最有希望的记录进行真实世界实验验证,编码智能体在沙盒环境中执行存储库级别的实现[9] - 分析与报告阶段在实施发现成功超越基线时,自主设计并执行更深层次的分析实验,最后将所有结果整合成可重现的研究论文[9] 前沿科学领域表现 - 在智能体失败归因任务中,DeepScientist提出的A2P方法将性能大幅提升了183.7%,从基线方法的16.67%提升至47.46%[13][16] - 在LLM推理加速任务中,系统生成的ACRA方法将人类SOTA从190.25 tokens/秒提升至193.90 tokens/秒,提高了1.9%[13][16] - 在AI文本检测任务中,系统在两周内产生三种逐步优越的方法,AUROC提高了7.9%至0.863,同时推理速度翻倍,延迟从117ms降低至60ms,这相当于人类科学家三年累计的成果[13][16] 生成论文质量评估 - 使用DeepReviewer进行的自动化评估显示,DeepScientist是唯一生成论文接受率达到60%的AI科学家系统[19] - 人类专家评估中,三位活跃的LLM研究人员组成的程序委员会一致认为系统在构思阶段表现卓越,平均评分5.00与所有ICLR 2025提交论文的平均分5.08非常接近[20] - 其中两篇论文评分显著超过平均水平,达到了5.67分[20][21] 探索过程与效率 - 分析显示DeepScientist在三个前沿科学任务中产生了超过5000个独特想法,但只有约1100个被认为值得实验验证,仅有21个最终带来科学进展,成功率为1-3%[23] - 研究显示计算规模与科学进展速率存在缩放趋势,从4个GPU时的1个SOTA超越发现增加到16个GPU时的11个,建立了资源与科学发现间近乎线性的关系[25] - 科学突破不再依赖天才科学家的灵光一闪,而是可以通过系统化增加计算资源来规模化生产[26] 行业影响与意义 - DeepScientist的结果提出了科学探索的新范式,其1-5%的进展率反映了前沿研究的现实,核心优势是以难以想象的规模和速度进行试错过程[29] - 这项研究提供了第一个大规模实验验证证据,表明自主AI科学家具有在现代科学前沿探索中实现逐步超越人类SOTA的能力[29] - 系统预示着一个科学发现速度不再完全由人类思维节奏决定的新时代,AI成为能够自主推动科学前沿的合作伙伴[29]