Workflow
人工智能+科学
icon
搜索文档
之江实验室薛贵荣:当AI开始做科研,我看到了大语言模型的天花板丨GAIR 2025
雷峰网· 2025-12-24 08:22
文章核心观点 - 大语言模型在解决复杂科学问题上存在根本性局限,其受限于“语言的边界”,难以理解高维度、跨模态的科学数据,在覆盖100多个学科的高难度HLE测试中,最优模型准确率仅为25.4% [3][4][19] - 为突破此局限,需要发展新一代的科学基础模型,其核心在于将光谱、化学结构、基因序列、地震波等多元科学数据统一Token化并映射到高维空间,从而实现对科学世界的客观认知与推理 [4][24][26] - 之江实验室研发的“021”科学基础模型是这一方向的实践,该模型旨在统一处理跨学科科学数据,具备科学知识问答、分子结构生成与编辑、基因到疾病精准诊断等能力,以推动科学研究范式的变革 [4][5][30][34][36] 大语言模型在科学领域的应用与局限 - 大语言模型已在多个学科研究中展现潜力,例如被用于解决微分几何难题和黑洞扰动理论计算,显著提升了研究效率 [15][16] - 然而,其本质是低维的离散符号系统,受限于“语言的边界”,无法真正理解包含时间、空间和能量等高维特性的科学数据,如分子、基因、地震波、光谱等 [4][19][23] - 在覆盖100多个学科的高难度HLE测试中,表现最优的大语言模型准确率仅为25.4%,表明其在科学知识与推理方面尚未达到人类认知水平 [4][19] 科学基础模型的核心原理与构建 - 科学基础模型与大语言模型的核心差异在于数据维度:前者以跨学科、多类型的科学数据作为Token化基础,而后者仅以文本数据为基础 [4][25][26] - 构建科学基础模型的首要挑战是实现“OneTokenizer”,即将光谱、化学结构、蛋白质、DNA、地震波等异构科学数据结构化,统一映射到一个高维空间中 [4][26][28] - 数据Token化并对齐后,能够建立不同类型科学数据之间的关联,从而实现跨学科的全链路科学解析与发现 [5][28][30] 之江实验室“021”科学基础模型 - “021”模型是之江实验室研发的科学基础模型,旨在对科学世界形成客观认知,并具备迅速、精准、高泛化性的科学知识问答能力 [5][30] - 该模型覆盖数学、物理、化学、计算机等19个重要学科,涉及174个领域的科学知识,但其训练所用的科学数据Token规模仅约为互联网语料的1% [34] - 模型具备多项应用能力,包括:通过对话进行分子结构的生成与编辑,替代耗时数月的高通量实验;实现从基因组学到临床医学的全链路基因突变分析与疾病精准诊断 [34][36] - 该模型支持全球204种语言,旨在让更多人享受其服务 [36] 行业趋势与生态建设 - “AI+科学”已成为全球重要战略,例如美国启动了被称为“AI曼哈顿计划”的“创世纪计划”,动员了17个国家实验室和4万名科学家 [9] - OpenAI等领先机构也积极布局,启动了“OpenAI for Science”倡议,旨在打造由人工智能驱动、加速科学发现的平台 [16] - 构建科学基础模型需要深度跨学科合作,之江实验室通过设立“种子班”、“科学家工作坊”以及与国内外专家的协同创新,汇聚AI科学家与领域科学家共同攻坚 [36][37] - 实验室通过开放研究平台“zero2x”开放其数据与模型,并设立奖金池和科研支持方案,以全球征集科学问题的方式,推动AI在科学领域的极限探索 [37][38]
用好AI这个科研超级助手
经济日报· 2025-10-23 06:09
文章核心观点 - 国务院印发《关于深入实施“人工智能+”行动的意见》,明确提出加快实施“人工智能+”科学技术行动,旨在抢占新一轮科研范式变革先机 [1] - 人工智能驱动的科学研究正迈向“人工智能+科学”新范式,展现出重塑科技创新的巨大潜力 [1] - 人工智能在科研领域机遇与挑战并存,需加强统筹谋划以突破发展瓶颈 [1] 人工智能+科学研究的发展与成就 - 人工智能模型阿尔法折叠2(AlphaFold2)解决了困扰全球科学家数十年的难题,成功预测了大约两亿种蛋白质的结构 [1] - 人工智能驱动的科学研究在全球持续升温,正重塑科技创新 [1] 当前面临的主要挑战与瓶颈 - 高质量科学数据缺乏、算法可解释性不足是制约人工智能驱动科学研究深入发展的瓶颈 [1] - 用于AI训练的数据质量良莠不齐、依赖国外数据库资源、数据标准不统一 [2] - 多学科交叉人才短缺 [2] 应对挑战的建议与措施 - 加快构建国家级数据平台和算力网络,促进跨平台、跨学科的优质科学数据资源安全共享与高效应用 [2] - 加强相关学科与人工智能交叉领域的复合型人才培养 [2] - 强化跨领域、跨部门协同攻关,让人工智能成为科学家的超级助手,提升科研效率和创新潜能 [2] 对科技工作者的号召 - 广大科技工作者应积极拥抱新浪潮,探索使用人工智能手段解决重大科学问题 [2]
【中国新闻网】开启科研无限可能 中国团队发布“磐石·科学基础大模型”
中国新闻网· 2025-07-28 11:04
磐石·科学基础大模型发布 - 中国科学院联合团队研发的"磐石·科学基础大模型"于2025世界人工智能大会期间正式发布,旨在为各领域科技创新提供智能支撑 [4] - 该模型采用专业科学知识和数据进行训练,服务于科学任务,具备对波、谱、场等多种科学模态数据的深入理解能力 [4] - 模型核心能力包括科学文献萃取融合、科学知识表征推理和科学工具编排规划 [4] 技术架构与性能 - 采用异构混合专家架构,基于中国国产开源大模型面向科学领域深度定制 [7] - 集成自主研发的面向共性科学数据模态的专用模型,并融合AlphaFold、MatterGen等领域专业模型 [7] - 系统掌握数理化天地生六大学科核心定理、定律与专业知识 [7] - 在基础学科领域国际通用数据集中达到数学、物理、化学、材料、生物各学科门类当前最佳性能 [7] - 在GAIA、SimpleQA等国际权威测试中展示领先的科学专业工具调用和科学推理性能 [7] 应用案例与效率提升 - 开发"磐石·文献罗盘"可接入1.7亿篇科技文献,将3-5天的文献调研工作缩短至20分钟 [8] - 开发"磐石·工具调度台"可自主规划及调用超过300个科学计算工具 [8] - 在生命科学领域构建X-Cell数字细胞大模型,使药物靶点发现效率提升超过10倍 [9] - 在高能物理领域提升粒子模拟速度与重建效率 [9] - 在力学研究中高效计算高铁模型在多种流体环境下的表面压力场 [9] 生态建设 - 联合40余家科研院所、高等院校及企业合作伙伴启动"科学基础大模型生态联盟"计划 [11] - 积极推动国产算力适配,构建开源开放、自主可控的"人工智能+科学"新生态 [11]