清华崔鹏团队开源LimiX：首个结构化数据通用大模型，性能超越SOTA专用模型

文章核心观点 - 清华大学与稳准智能联合研发的结构化数据通用大模型“极数”（LimiX）正式开源，标志着我国在该领域取得关键突破 [2] - 该模型旨在解决通用大语言模型（LLM）处理结构化数据的短板，为工业等结构化数据主导的领域提供“One-For-All”的通用AI解决方案，降低技术应用门槛 [2][3] - “极数”模型在超过600个数据集的测试中，无需二次训练即在多项关键指标上达到或超越专用SOTA模型，并已在多个真实工业场景成功落地 [5][31] 模型发布与产业意义 - 模型于2025年8月29日宣布开源，由清华大学计算机系崔鹏教授团队与稳准智能共同研发 [2] - 开源旨在降低千行百业应用结构化数据AI技术的门槛，推动AI深度融入工业生产全流程 [2] - 在泛工业领域，结构化数据（如生产参数、设备运行数据）是核心资产，其智能处理能力直接影响产业效率与科研突破 [2] 技术定位与解决的问题 - 通用大语言模型（LLM）在处理表格、时序等结构化数据时存在明显短板，数值比较、计算易出偏差，难以胜任数据分类、预测等复杂任务 [2] - 传统工业数据处理依赖“私有数据+专用模型”范式，专用模型难泛化、不通用，导致成本高、效果差，制约AI落地 [2][3] - 结构化数据通用大模型（LDM）融合结构因果推断与预训练大模型技术，针对性解决上述痛点，具备强泛化能力 [3] 模型核心能力与优势 - 支持分类、回归、高维表征抽取、因果推断等多达10类任务，实现单一模型适配多场景、多任务 [3] - 在工业时序预测、异常监测等场景中，性能达到甚至超越最优专用模型 [3] - 无需进行二次训练，在超过600个数据集上的测试表明，其在准确率、泛化性等关键指标上均能达到或超过专有SOTA模型 [5] - 产业应用层面，已成功落地多个真实工业场景，具备无需训练、部署成本低、准确率高、通用性强的特点 [5] 研发团队背景 - 研发核心由清华大学计算机系崔鹏教授牵头，崔鹏是国家杰出青年科学基金获得者，两度获得国家自然科学二等奖，并获评ACM杰出科学家 [8] - 崔鹏教授开创性提出“因果启发的稳定学习”新范式，为AI模型的可靠性与泛化性研究奠定理论基础 [8] - 团队在2022年后将研究方向拓展至结构化数据通用大模型（LDM）领域，攻克了结构因果数据合成、模型结构设计等核心难题 [8] 模型技术简介 - 模型集成分类、回归、缺失值插补、数据生成、因果推断与发现等多项能力于同一基础模型中 [10] - 预训练阶段基于海量因果合成数据学习数据中的因果关系，通过条件掩码建模学习数据的联合分布 [10] - 推理阶段可直接基于提供的上下文信息进行推理，无需训练即可适用于各种应用场景 [11] 模型技术架构与训练 - 沿用Transformer架构，并针对结构化数据建模和任务泛化进行优化 [14] - 训练过程完全使用生成数据，不依赖任何真实世界数据，采用基于结构因果图的数据生成方式 [18] - 优化目标加入了掩码重构机制，通过在样本维度、特征维度和语义维度进行掩码操作，学习数据特征的联合分布，提高模型鲁棒性 [21][26] 模型性能表现 - 在分类任务中，于TALENT-CLS基准测试中对比21个baseline方法，“极数”在AUC、ACC、F1 Score和ECE上均取得了最优性能 [25] - AUC达到 0.903±0.003，显著优于第二名TabPFNv2的 0.895±0.002 [27] - ACC达到 0.861±0.004，优于第二名TabPFNv2的 0.850±0.003 [27] - 在回归任务中，于TALENT-REG基准测试中，在R2和RMSE指标上达到平均最优 [27] - R2达到 0.784±0.002，优于第二名AutoGluon的 0.770±0.001 [28] - 归一化RMSE为 0.394±0.002，优于第二名AutoGluon的 0.410±0.001 [28] - 当数据集中存在干扰特征或无效特征时，模型的性能优势更加明显 [27] 产业落地应用案例 - 在工业运维领域，已应用于钢铁、能源、电力等行业，用于设备运行监测、故障预警等 [31] - 在某钢铁企业案例中，将设备故障预测准确率在原专用模型基础上提升了15%，推动维护模式向预测性维护转型 [32] - 在工艺优化领域，应用于化工、制造、生物等行业 [32] - 在某材料研发企业案例中，成功筛选出核心优化因子，在确保信息无损（R^2超过0.95）的前提下，将调控效率提升了5倍 [32] - 业内专家认为，该模型的成功落地为解决工业数据应用痛点提供了标准化解决方案 [32] 发展前景与开源信息 - 发展能够跨场景、跨任务、跨环境的结构化数据通用大模型（LDM）势在必行，我国凭借丰富的工业数据资源与多元场景，有望在该领域打造独特竞争力 [35] - 项目已在Github、Huggingface、Modelscope等平台开源，提供了项目主页、技术报告和模型仓库 [33]