结构化数据通用大模型(LDM)
搜索文档
国内首个结构化数据通用大模型来了
上海证券报· 2026-02-04 02:21
文章核心观点 - 由清华大学崔鹏团队与稳准智能联合研发的国内首个结构化数据通用大模型“极数”(LimiX)正式发布,该模型有望成为“人工智能+”战略的数字底座,并标志着AI范式向构建理解数据因果机制的“通用世界模型”转变,目标是以一个模型赋能千行百业 [1] - 多位行业专家认为,LDM是激活中国海量工业数据、赋能实体经济的“国之重器”,中国已在因果推理、合成数据与通用架构上建立优势,正处于从技术突破到产业爆发的临界点,LimiX的成功有望实现从语言大模型并跑到数据大模型领跑的跨越 [1] 技术定位与优势 - LDM被描述为专注于处理结构化数据的“理科大脑”,与擅长文本的LLM形成互补,能够处理表格、时序、图状等结构化数据,胜任分类、预测、归因等复杂任务,实现跨场景、跨任务、跨数据形态的通用预测和决策 [2] - LimiX模型在部分指标上已领先于美国、德国、法国等国家的同类型模型,属于全球第一梯队 [2] - LDM或将打破传统AI在工业领域的“跷跷板效应”(通用性与精准性难以兼得),实现两者双提升,其预测性能可超过90%场景中的专用模型,且无需参数微调或超参数优化 [4] 行业应用与案例 - LDM可广泛应用于工业、通信、能源、科研等场景,作为工业智能基座与行业产生“化学反应” [2] - 在能源领域,中网联合能源服务公司表示,LDM能实现毫秒级功率平衡运算,精准对接电力供需,并能提前预判突发用电负荷(如极端天气、节假日高峰),让负荷调配不再像“开盲盒” [3] - 在通信领域,彩讯股份指出,运营商数据结构复杂,过去依赖小模型需针对每个场景重新训练,资源消耗大、效率低,而通用模型可适配用户流失预警、流量增长预测、换机营销预测等多种场景,实现从经验判断到数据驱动的升级 [3] - 在材料科研领域,钢研国际新材料创新中心表示,LDM能发现元素含量与材料性能的规律并挖掘优化机理,快速锁定设计参数及成分配方,非常适合数据稀缺且昂贵的新材料行业 [4] - 在设备运维领域,中冶京诚数字科技以电机轴承故障为例,指出LimiX可预测振动频谱赫兹分量异常、油温上升趋势,在未达故障标准时提前预警,降低运维成本,并能找到影响故障的未知因素 [5] 经济效益与成本 - 根据现有测算,LDM概念验证的经济成本仅为工业领域传统“私有数据+专用模型”模式的10% [5] - LimiX为轻量化模型,可部署于冶金产线及相关边缘设备,实现毫秒级的本地实时推理和预警,对资源要求较低 [5] 模型特性与价值 - LDM不仅提供结果支撑,还具备较强的可解释性,打开了AI“黑匣”,提高了决策的信心与透明度 [5] - LDM是人工智能从感知走向决策、赋能新型工业化的核心引擎,其开源发布终结了传统AI在工业领域“一个场景、一套数据、一个模型”的低效范式 [4] 落地生态与规划 - LimiX自2025年8月29日开源以来,已在20余个行业的多个场景进行落地应用验证,并在能源、钢铁、化工、通信等行业于雄安新区实现落地验证 [1][6] - 稳准智能作为研发方,在雄安人工智能产业园享受近乎零租金的房租补贴,并于2025年9月顺利完成Pre-A轮融资 [6] - 公司正与中国雄安集团智慧能源公司合作,有望根据天气、居民人数等预测用气量,以精准采购燃气 [6] - 专家建议雄安新区打造LDM创新中心,构建“数据大模型+产业集群”生态,为全国提供AI驱动新型工业化的“雄安方案”,并以应用示范为突破口,推动LDM走进千行百业 [8]
清华崔鹏团队开源LimiX:首个结构化数据通用大模型,性能超越SOTA专用模型
机器之心· 2025-08-30 09:18
文章核心观点 - 清华大学与稳准智能联合研发的结构化数据通用大模型“极数”(LimiX)正式开源,标志着我国在该领域取得关键突破 [2] - 该模型旨在解决通用大语言模型(LLM)处理结构化数据的短板,为工业等结构化数据主导的领域提供“One-For-All”的通用AI解决方案,降低技术应用门槛 [2][3] - “极数”模型在超过600个数据集的测试中,无需二次训练即在多项关键指标上达到或超越专用SOTA模型,并已在多个真实工业场景成功落地 [5][31] 模型发布与产业意义 - 模型于2025年8月29日宣布开源,由清华大学计算机系崔鹏教授团队与稳准智能共同研发 [2] - 开源旨在降低千行百业应用结构化数据AI技术的门槛,推动AI深度融入工业生产全流程 [2] - 在泛工业领域,结构化数据(如生产参数、设备运行数据)是核心资产,其智能处理能力直接影响产业效率与科研突破 [2] 技术定位与解决的问题 - 通用大语言模型(LLM)在处理表格、时序等结构化数据时存在明显短板,数值比较、计算易出偏差,难以胜任数据分类、预测等复杂任务 [2] - 传统工业数据处理依赖“私有数据+专用模型”范式,专用模型难泛化、不通用,导致成本高、效果差,制约AI落地 [2][3] - 结构化数据通用大模型(LDM)融合结构因果推断与预训练大模型技术,针对性解决上述痛点,具备强泛化能力 [3] 模型核心能力与优势 - 支持分类、回归、高维表征抽取、因果推断等多达10类任务,实现单一模型适配多场景、多任务 [3] - 在工业时序预测、异常监测等场景中,性能达到甚至超越最优专用模型 [3] - 无需进行二次训练,在超过600个数据集上的测试表明,其在准确率、泛化性等关键指标上均能达到或超过专有SOTA模型 [5] - 产业应用层面,已成功落地多个真实工业场景,具备无需训练、部署成本低、准确率高、通用性强的特点 [5] 研发团队背景 - 研发核心由清华大学计算机系崔鹏教授牵头,崔鹏是国家杰出青年科学基金获得者,两度获得国家自然科学二等奖,并获评ACM杰出科学家 [8] - 崔鹏教授开创性提出“因果启发的稳定学习”新范式,为AI模型的可靠性与泛化性研究奠定理论基础 [8] - 团队在2022年后将研究方向拓展至结构化数据通用大模型(LDM)领域,攻克了结构因果数据合成、模型结构设计等核心难题 [8] 模型技术简介 - 模型集成分类、回归、缺失值插补、数据生成、因果推断与发现等多项能力于同一基础模型中 [10] - 预训练阶段基于海量因果合成数据学习数据中的因果关系,通过条件掩码建模学习数据的联合分布 [10] - 推理阶段可直接基于提供的上下文信息进行推理,无需训练即可适用于各种应用场景 [11] 模型技术架构与训练 - 沿用Transformer架构,并针对结构化数据建模和任务泛化进行优化 [14] - 训练过程完全使用生成数据,不依赖任何真实世界数据,采用基于结构因果图的数据生成方式 [18] - 优化目标加入了掩码重构机制,通过在样本维度、特征维度和语义维度进行掩码操作,学习数据特征的联合分布,提高模型鲁棒性 [21][26] 模型性能表现 - 在分类任务中,于TALENT-CLS基准测试中对比21个baseline方法,“极数”在AUC、ACC、F1 Score和ECE上均取得了最优性能 [25] - AUC达到 `0.903±0.003`,显著优于第二名TabPFNv2的 `0.895±0.002` [27] - ACC达到 `0.861±0.004`,优于第二名TabPFNv2的 `0.850±0.003` [27] - 在回归任务中,于TALENT-REG基准测试中,在R2和RMSE指标上达到平均最优 [27] - R2达到 `0.784±0.002`,优于第二名AutoGluon的 `0.770±0.001` [28] - 归一化RMSE为 `0.394±0.002`,优于第二名AutoGluon的 `0.410±0.001` [28] - 当数据集中存在干扰特征或无效特征时,模型的性能优势更加明显 [27] 产业落地应用案例 - 在工业运维领域,已应用于钢铁、能源、电力等行业,用于设备运行监测、故障预警等 [31] - 在某钢铁企业案例中,将设备故障预测准确率在原专用模型基础上提升了**15%**,推动维护模式向预测性维护转型 [32] - 在工艺优化领域,应用于化工、制造、生物等行业 [32] - 在某材料研发企业案例中,成功筛选出核心优化因子,在确保信息无损(R^2超过**0.95**)的前提下,将调控效率提升了**5倍** [32] - 业内专家认为,该模型的成功落地为解决工业数据应用痛点提供了标准化解决方案 [32] 发展前景与开源信息 - 发展能够跨场景、跨任务、跨环境的结构化数据通用大模型(LDM)势在必行,我国凭借丰富的工业数据资源与多元场景,有望在该领域打造独特竞争力 [35] - 项目已在Github、Huggingface、Modelscope等平台开源,提供了项目主页、技术报告和模型仓库 [33]