科研自动化

搜索文档
FutureHouse 联合创始人:AI Scientist 不是“全自动化科研”
海外独角兽· 2025-06-26 20:25
核心观点 - FutureHouse是由Google前CEO Eric Schmidt资助创立的AI Lab,专注于AI for Science方向,目标是打造可自主提出问题、规划实验、迭代假设的AI科学家体系 [3] - 公司推出了四个AI科研agent:Crow(通用智能体)、Falcon(自动化文献综述智能体)、Owl(调研智能体)以及Phoenix(实验智能体),这些agent可访问完整科学文献全文并具备信息质量评估能力 [3] - AI系统Robin成功发现新药,展示了AI在科研自动化领域的潜力 [3] - AI推动生物科学分为两层视角:以AlphaFold 3等模型为代表的分子设计空间打开,以及FutureHouse探索的科研自动化agent系统构成的AI Scientist [4] 生物比化学更具"平台化"潜力 - 生物学比化学更具平台化特征,更适合作为科学自动化的起点 [14] - 蛋白质设计流程相对标准化,可以选择克隆、细胞表达或直接机器合成,而化学每个分子几乎都是"定制品" [15] - 生物学平台化程度高,测序几乎免费,合成成本低,适合做验证假设 [15] - 生物学研究任务具备高度开放性,总有新的生物基因组需要探索和功能注释 [15] - 生物学已经具备进化论基础理论,更侧重研究复杂系统在既定规则下的演化与调控 [15] FutureHouse是在构建科研API - FutureHouse延续了FRO的基本规模和运行周期,聚焦"Moonshot"级别挑战,可能需要5年以上持续投入 [22] - 公司开发了论文问答系统PaperQA,基于RAG思路构建但做了改进,系统表现已超过人类 [24] - WikiCrow系统将人类基因组相关维基百科内容从2500个基因介绍扩展到近1.8万篇文章 [25] - 开发了矛盾检测系统,能在超过两亿篇论文里查找和任意陈述相冲突的信息 [26] - 实质上正在构建一个科研API,通过整合多种功能如查找矛盾、文献研究、分子设计等 [28] FutureHouse科研Agent开发思路 - 将所有需要训练的部分称为agent,未训练的部分叫environment,agent通过语言、观测和动作与环境交互 [29] - 把memory从environment移到agent,尝试过多种记忆形式如简单追加消息、压缩、保留最近几条等 [29] - 框架主要目标是突破零样本的限制,关注可训练性,支持在线RL [30] - 使用语言模型过滤和识别相关性,而不是只靠embedding,虽然带来更高成本和更长响应时间但更注重性能 [31] - 搭建了全文检索系统,把相关代码开源在PaperQA2里,技术上可以用Postgres或Elastic Search [32] "科研自动化"不是100%替代人类 - 对实验室机器人前景持谨慎态度,认为10年后不会出现完全自主的科研系统 [46] - 更可行的情景是系统辅助判断和生成方案,人类提供明确的问题和研究框架并和系统反复协作 [47] - 生物学本质上受限于观测和经验数据,无法简单指令系统完成实验任务,需要人类深度参与 [47] - 实现真正意义上的100%自动化非常困难,越接近完全自动化所需投入越高而边际收益减小 [49] - 探索将人类资源嵌入科研流程的可能性,用可编程工具推进科研但背后执行的是人 [51] AI是如何影响科学研究的 - 用云计算计算分子和蛋白结合的自由能成本约十几美元,有机合成和实验验证成本也差不多 [53] - 分子动力学不能模拟化学反应,而生物过程大量依赖酸碱反应,单纯原子运动模拟无法描述细胞功能 [54] - 有虚拟分子库如Zinc收录数百亿种理论上可合成的分子,研究者可直接从中筛选 [55] - 药物开发从发现机制到推进到二期临床通常要7年,反馈周期太长是主要瓶颈 [59] - 建议政府公开所有已获批药物的IND资料包,这些数据能提供丰富的训练资源 [60]