021科学基础模型
搜索文档
科学有答案 创新无止境(院士讲科普·年终特别报道) ——八位院士眼中的二〇二五
人民日报· 2025-12-27 06:15
中国科技创新整体进展 - 2025年中国在全球创新指数排名中升至第十位[1] - “十五五”规划建议中46次提及“科技”,61次强调“创新”[1] - 科技创新与产业创新加速融合,人工智能、新能源汽车产业蓬勃发展[1] 深空探测领域 - 嫦娥六号从月球背面取回的样品中首次发现大型撞击事件成因的微米级赤铁矿和磁赤铁矿晶体,揭示了全新的月球氧化反应机制[2] - 天问二号探测器发射,将对一颗距地球4200万公里的近地小行星进行抵近探测,预计于2027年底采样返回[2] - 深空探测活动正由工程技术突破向重大科学发现、资源开发利用转变,由短期访问式探测向长期驻留式探测与应用转变[2] - 未来将稳步推进月球科研站建设、载人登月、火星取样返回、木星系探测和近地小行星防御与应用等重大工程[2] 量子计算领域 - 中国第三代自主超导量子计算机“本源悟空”上线,已参与77所高校人才培养,并与国内超算、航空航天、电力医药等关键领域企业进行了百余个应用合作[4] - “本源悟空”实现了量子算力“机时”的出口与国际合作[4] - 超导量子计算原型机“祖冲之三号”打破了超导体系量子计算优越性的纪录[6] - “本源悟空”成功完成了74万个全球量子计算任务[6] - 实现全链条自主可控的关键在于量子计算芯片、测控系统、环境支撑系统、量子计算机操作系统、应用软件和云平台六大方面[4] 脑机接口领域 - 脑机接口正演变为连接碳基生物智能与硅基机器智能的基础设施[7] - 技术从单向“读取”迈入双向“读写交互”模式[7] - 2025年,介入式脑机接口取得新进展,全国首个脑机接口综合临床实验病区成立,全球首个神经重症脑机接口多中心临床试验启动[9] - 脑机接口技术不断迈向规模化、平台化[9] 数智技术(人工智能与云计算)领域 - 以云计算和人工智能为代表的数智技术是赋能千行百业发展的关键工具[10] - 推动“人工智能+”的关键在于机制创新,表现为敏捷型科研组织以及科技创新与产业创新深度融合的路径探索[10] - 开放合作与开源创新是加速器,从“源代码开放”转向“创新资源的开放”[10] - 之江实验室打造的021科学基础模型与三体计算星座,通过开放创新与央企、民企及国际组织合作,在太空拓展计算与智能边界[11] - 2025年DeepSeek、国产人形机器人等成果竞相迸发,“AI+科研”创新科研范式,智慧工厂、智慧交通、智慧文旅等场景拓展应用边界[11] 氢能领域 - 氢能是与电能互为补充的重要能源载体,在零碳能源体系中具有氢储能、氢原料与氢动力等主要用途[12] - 氢燃料电池发展较快,已从道路车辆扩展到工程机械、机车、小型船舶、飞行器、潜航器等领域[12] - 中国已经初步掌握氢燃料电池及其关键零部件、动力系统、整车集成和氢能基础设施等重要技术,建立了相关产业链[12][13] - “十五五”规划建议提出推动氢能等成为新的经济增长点[13] 科研人才培养与基础研究 - 国家重点研发计划参研人员中,45岁以下占比达80%以上;国家自然科学奖获奖者成果完成人的平均年龄已低于45岁[15] - 高校需精准对接国家战略需求布局学科,如天津大学布局合成生物、新型储能、脑机接口、集成电路等重点方向[14] - 应推动科研人员深入行业头部企业,将产业“技术需求清单”和“研发订单”带回实验室[14] - 推行“战略科学家+创新团队”培养模式,让青年人才在服务国家重大战略需求中挑大梁[14] - 2024年中国基础研究投入在研发经费中的占比约为6.9%,与主要发达国家15%—25%的普遍水平差距显著[16] - 需加大对国家自然科学基金的支持力度,特别是面上项目与青年科学基金,并拓宽企业投入等多元化渠道[16] - 需深化科研评价改革,完善容错纠错机制,营造稳定、宽松、公正、包容失败的科研文化环境[17] 科学普及 - 科技创新是科普的源头活水,科学普及是科技创新的土壤[19][20] - 通过“科学追光计划”走进偏远地区学校、推出“给青少年的科学讲堂”等形式,推动全民科普[20] - 全民科学素质的提升是国家科技创新的坚实根基[20]
之江实验室薛贵荣:当AI开始做科研,我看到了大语言模型的天花板丨GAIR 2025
雷峰网· 2025-12-24 08:22
文章核心观点 - 大语言模型在解决复杂科学问题上存在根本性局限,其受限于“语言的边界”,难以理解高维度、跨模态的科学数据,在覆盖100多个学科的高难度HLE测试中,最优模型准确率仅为25.4% [3][4][19] - 为突破此局限,需要发展新一代的科学基础模型,其核心在于将光谱、化学结构、基因序列、地震波等多元科学数据统一Token化并映射到高维空间,从而实现对科学世界的客观认知与推理 [4][24][26] - 之江实验室研发的“021”科学基础模型是这一方向的实践,该模型旨在统一处理跨学科科学数据,具备科学知识问答、分子结构生成与编辑、基因到疾病精准诊断等能力,以推动科学研究范式的变革 [4][5][30][34][36] 大语言模型在科学领域的应用与局限 - 大语言模型已在多个学科研究中展现潜力,例如被用于解决微分几何难题和黑洞扰动理论计算,显著提升了研究效率 [15][16] - 然而,其本质是低维的离散符号系统,受限于“语言的边界”,无法真正理解包含时间、空间和能量等高维特性的科学数据,如分子、基因、地震波、光谱等 [4][19][23] - 在覆盖100多个学科的高难度HLE测试中,表现最优的大语言模型准确率仅为25.4%,表明其在科学知识与推理方面尚未达到人类认知水平 [4][19] 科学基础模型的核心原理与构建 - 科学基础模型与大语言模型的核心差异在于数据维度:前者以跨学科、多类型的科学数据作为Token化基础,而后者仅以文本数据为基础 [4][25][26] - 构建科学基础模型的首要挑战是实现“OneTokenizer”,即将光谱、化学结构、蛋白质、DNA、地震波等异构科学数据结构化,统一映射到一个高维空间中 [4][26][28] - 数据Token化并对齐后,能够建立不同类型科学数据之间的关联,从而实现跨学科的全链路科学解析与发现 [5][28][30] 之江实验室“021”科学基础模型 - “021”模型是之江实验室研发的科学基础模型,旨在对科学世界形成客观认知,并具备迅速、精准、高泛化性的科学知识问答能力 [5][30] - 该模型覆盖数学、物理、化学、计算机等19个重要学科,涉及174个领域的科学知识,但其训练所用的科学数据Token规模仅约为互联网语料的1% [34] - 模型具备多项应用能力,包括:通过对话进行分子结构的生成与编辑,替代耗时数月的高通量实验;实现从基因组学到临床医学的全链路基因突变分析与疾病精准诊断 [34][36] - 该模型支持全球204种语言,旨在让更多人享受其服务 [36] 行业趋势与生态建设 - “AI+科学”已成为全球重要战略,例如美国启动了被称为“AI曼哈顿计划”的“创世纪计划”,动员了17个国家实验室和4万名科学家 [9] - OpenAI等领先机构也积极布局,启动了“OpenAI for Science”倡议,旨在打造由人工智能驱动、加速科学发现的平台 [16] - 构建科学基础模型需要深度跨学科合作,之江实验室通过设立“种子班”、“科学家工作坊”以及与国内外专家的协同创新,汇聚AI科学家与领域科学家共同攻坚 [36][37] - 实验室通过开放研究平台“zero2x”开放其数据与模型,并设立奖金池和科研支持方案,以全球征集科学问题的方式,推动AI在科学领域的极限探索 [37][38]
之江实验室021科学基础模型首次亮相 突破语言局限
中国新闻网· 2025-12-19 07:44
021科学基础模型发布 - 之江实验室于12月18日在杭州举行创新合作大会,首次全面展示其021科学基础模型及系列领域科学模型研发进展 [1] - 该模型构筑了跨学科知识、跨领域推理、跨语言理解三大基石,其语言理解能力覆盖204种语言 [1] - 模型旨在突破语言表达的局限,通过构建“科学空间+语言空间”的统一高维空间来连接跨学科数据,从而变革科学研究范式 [1] 模型技术架构与能力 - 研发团队探索将科学数据和文本语料编码到统一高维空间,使模型能够识别、处理科学数据并解决复杂科学问题 [1] - 经过近万次实验,团队形成了包含预训练、后训练、强化学习的模型训练框架 [1] - 已完成2360亿参数规模的021科学基础模型训练 [1] 应用领域与定位 - 目前,021模型已服务于地球科学、天文学、生命科学、材料科学等多个领域 [2] - 该模型被定位为打破学科边界、激发创新思维的“科研伙伴” [2]