清华崔鹏团队开源LimiX:首个结构化数据通用大模型,性能超越SOTA专用模型
机器之心·2025-08-30 09:18

文章核心观点 - 清华大学与稳准智能联合研发的结构化数据通用大模型“极数”(LimiX)正式开源,标志着我国在该领域取得关键突破 [2] - 该模型旨在解决通用大语言模型(LLM)处理结构化数据的短板,为工业等结构化数据主导的领域提供“One-For-All”的通用AI解决方案,降低技术应用门槛 [2][3] - “极数”模型在超过600个数据集的测试中,无需二次训练即在多项关键指标上达到或超越专用SOTA模型,并已在多个真实工业场景成功落地 [5][31] 模型发布与产业意义 - 模型于2025年8月29日宣布开源,由清华大学计算机系崔鹏教授团队与稳准智能共同研发 [2] - 开源旨在降低千行百业应用结构化数据AI技术的门槛,推动AI深度融入工业生产全流程 [2] - 在泛工业领域,结构化数据(如生产参数、设备运行数据)是核心资产,其智能处理能力直接影响产业效率与科研突破 [2] 技术定位与解决的问题 - 通用大语言模型(LLM)在处理表格、时序等结构化数据时存在明显短板,数值比较、计算易出偏差,难以胜任数据分类、预测等复杂任务 [2] - 传统工业数据处理依赖“私有数据+专用模型”范式,专用模型难泛化、不通用,导致成本高、效果差,制约AI落地 [2][3] - 结构化数据通用大模型(LDM)融合结构因果推断与预训练大模型技术,针对性解决上述痛点,具备强泛化能力 [3] 模型核心能力与优势 - 支持分类、回归、高维表征抽取、因果推断等多达10类任务,实现单一模型适配多场景、多任务 [3] - 在工业时序预测、异常监测等场景中,性能达到甚至超越最优专用模型 [3] - 无需进行二次训练,在超过600个数据集上的测试表明,其在准确率、泛化性等关键指标上均能达到或超过专有SOTA模型 [5] - 产业应用层面,已成功落地多个真实工业场景,具备无需训练、部署成本低、准确率高、通用性强的特点 [5] 研发团队背景 - 研发核心由清华大学计算机系崔鹏教授牵头,崔鹏是国家杰出青年科学基金获得者,两度获得国家自然科学二等奖,并获评ACM杰出科学家 [8] - 崔鹏教授开创性提出“因果启发的稳定学习”新范式,为AI模型的可靠性与泛化性研究奠定理论基础 [8] - 团队在2022年后将研究方向拓展至结构化数据通用大模型(LDM)领域,攻克了结构因果数据合成、模型结构设计等核心难题 [8] 模型技术简介 - 模型集成分类、回归、缺失值插补、数据生成、因果推断与发现等多项能力于同一基础模型中 [10] - 预训练阶段基于海量因果合成数据学习数据中的因果关系,通过条件掩码建模学习数据的联合分布 [10] - 推理阶段可直接基于提供的上下文信息进行推理,无需训练即可适用于各种应用场景 [11] 模型技术架构与训练 - 沿用Transformer架构,并针对结构化数据建模和任务泛化进行优化 [14] - 训练过程完全使用生成数据,不依赖任何真实世界数据,采用基于结构因果图的数据生成方式 [18] - 优化目标加入了掩码重构机制,通过在样本维度、特征维度和语义维度进行掩码操作,学习数据特征的联合分布,提高模型鲁棒性 [21][26] 模型性能表现 - 在分类任务中,于TALENT-CLS基准测试中对比21个baseline方法,“极数”在AUC、ACC、F1 Score和ECE上均取得了最优性能 [25] - AUC达到 0.903±0.003,显著优于第二名TabPFNv2的 0.895±0.002 [27] - ACC达到 0.861±0.004,优于第二名TabPFNv2的 0.850±0.003 [27] - 在回归任务中,于TALENT-REG基准测试中,在R2和RMSE指标上达到平均最优 [27] - R2达到 0.784±0.002,优于第二名AutoGluon的 0.770±0.001 [28] - 归一化RMSE为 0.394±0.002,优于第二名AutoGluon的 0.410±0.001 [28] - 当数据集中存在干扰特征或无效特征时,模型的性能优势更加明显 [27] 产业落地应用案例 - 在工业运维领域,已应用于钢铁、能源、电力等行业,用于设备运行监测、故障预警等 [31] - 在某钢铁企业案例中,将设备故障预测准确率在原专用模型基础上提升了15%,推动维护模式向预测性维护转型 [32] - 在工艺优化领域,应用于化工、制造、生物等行业 [32] - 在某材料研发企业案例中,成功筛选出核心优化因子,在确保信息无损(R^2超过0.95)的前提下,将调控效率提升了5倍 [32] - 业内专家认为,该模型的成功落地为解决工业数据应用痛点提供了标准化解决方案 [32] 发展前景与开源信息 - 发展能够跨场景、跨任务、跨环境的结构化数据通用大模型(LDM)势在必行,我国凭借丰富的工业数据资源与多元场景,有望在该领域打造独特竞争力 [35] - 项目已在Github、Huggingface、Modelscope等平台开源,提供了项目主页、技术报告和模型仓库 [33]