之江实验室薛贵荣：当AI开始做科研，我看到了大语言模型的天花板丨GAIR 2025

文章核心观点 - 大语言模型在解决复杂科学问题上存在根本性局限，其受限于“语言的边界”，难以理解高维度、跨模态的科学数据，在覆盖100多个学科的高难度HLE测试中，最优模型准确率仅为25.4% [3][4][19] - 为突破此局限，需要发展新一代的科学基础模型，其核心在于将光谱、化学结构、基因序列、地震波等多元科学数据统一Token化并映射到高维空间，从而实现对科学世界的客观认知与推理 [4][24][26] - 之江实验室研发的“021”科学基础模型是这一方向的实践，该模型旨在统一处理跨学科科学数据，具备科学知识问答、分子结构生成与编辑、基因到疾病精准诊断等能力，以推动科学研究范式的变革 [4][5][30][34][36] 大语言模型在科学领域的应用与局限 - 大语言模型已在多个学科研究中展现潜力，例如被用于解决微分几何难题和黑洞扰动理论计算，显著提升了研究效率 [15][16] - 然而，其本质是低维的离散符号系统，受限于“语言的边界”，无法真正理解包含时间、空间和能量等高维特性的科学数据，如分子、基因、地震波、光谱等 [4][19][23] - 在覆盖100多个学科的高难度HLE测试中，表现最优的大语言模型准确率仅为25.4%，表明其在科学知识与推理方面尚未达到人类认知水平 [4][19] 科学基础模型的核心原理与构建 - 科学基础模型与大语言模型的核心差异在于数据维度：前者以跨学科、多类型的科学数据作为Token化基础，而后者仅以文本数据为基础 [4][25][26] - 构建科学基础模型的首要挑战是实现“OneTokenizer”，即将光谱、化学结构、蛋白质、DNA、地震波等异构科学数据结构化，统一映射到一个高维空间中 [4][26][28] - 数据Token化并对齐后，能够建立不同类型科学数据之间的关联，从而实现跨学科的全链路科学解析与发现 [5][28][30] 之江实验室“021”科学基础模型 - “021”模型是之江实验室研发的科学基础模型，旨在对科学世界形成客观认知，并具备迅速、精准、高泛化性的科学知识问答能力 [5][30] - 该模型覆盖数学、物理、化学、计算机等19个重要学科，涉及174个领域的科学知识，但其训练所用的科学数据Token规模仅约为互联网语料的1% [34] - 模型具备多项应用能力，包括：通过对话进行分子结构的生成与编辑，替代耗时数月的高通量实验；实现从基因组学到临床医学的全链路基因突变分析与疾病精准诊断 [34][36] - 该模型支持全球204种语言，旨在让更多人享受其服务 [36] 行业趋势与生态建设 - “AI+科学”已成为全球重要战略，例如美国启动了被称为“AI曼哈顿计划”的“创世纪计划”，动员了17个国家实验室和4万名科学家 [9] - OpenAI等领先机构也积极布局，启动了“OpenAI for Science”倡议，旨在打造由人工智能驱动、加速科学发现的平台 [16] - 构建科学基础模型需要深度跨学科合作，之江实验室通过设立“种子班”、“科学家工作坊”以及与国内外专家的协同创新，汇聚AI科学家与领域科学家共同攻坚 [36][37] - 实验室通过开放研究平台“zero2x”开放其数据与模型，并设立奖金池和科研支持方案，以全球征集科学问题的方式，推动AI在科学领域的极限探索 [37][38]