Workflow
结构化数据
icon
搜索文档
别问树模型了!死磕结构化数据,清华团队把大模型表格理解推到极限
机器之心· 2025-11-21 12:50
文章核心观点 - 清华大学与稳准智能联合发布的LimiX系列模型是首个真正通用的结构化数据大模型,标志着该领域从专用模型时代进入通用大模型时代,是通往AGI的关键路径之一 [3][6][12] - LimiX模型在分类、回归、缺失值填补等10类任务上均实现领先性能,且无需针对新任务重新训练,解决了传统AI模型低效的痛点 [3][12] - 该模型不仅在基准测试中表现优异,在实际工业应用中也展现出强大能力,已在食品生产、电力市场预测等多个场景成功落地 [21][22] 结构化数据处理的重要性与行业痛点 - 工业化社会的便利背后高度依赖结构化数据的处理,这些数据以精确的行列格式组织,是维持世界运转的基础 [1][2] - 当前LLM大模型擅长文本处理但难以精确理解电子表格等结构化数据,导致行业仍依赖XGBoost、CatBoost等存在十几年的专用模型,每遇新任务需重新训练,效率低下 [3][8] LimiX模型的突破性意义 - LimiX-16M是LDM系列首款模型,首次在结构化数据领域实现真正的通用性,一个模型即可处理分类、回归、缺失值填补等10类任务,无需二次训练 [6][9][12] - 该模型通过海量数据学习自主发现变量关系,拥有类似GPT的通吃能力,性能碾压传统专用模型及TabPFN等基础模型 [9][12][16] 模型性能表现 - 在分类任务中,LimiX-16M在58.6%的数据集上取得最优结果,其轻量版LimiX-2M加入后,家族胜率达68.9% [13] - 回归任务中,两个版本模型包揽前两名,合计胜率达62% [15] - 缺失值填补任务上,LimiX以绝对优势拿下SOTA,如在Analcatdata数据集上的RMSE低至0.194,显著优于MissForest的0.203 [18][19] 实际工业应用案例 - 在食品生产烘干环节,LimiX精准建模工艺参数与含水量关系,预测值与真实值平均偏差小于9%,可解释92%的结果变化 [21] - 电力现货市场预测中,将企业内部最优模型误差从46.93% MAPE大幅降低至25.27% MAPE [21] - 变压器运行状态诊断错误率较XGBoost降低93.5% [21] LimiX-2M轻量级版本优势 - 虽仅2M参数,但性能力压TabPFN-v2和TabICL,超越AutoGluon,仅次于LimiX-16M [24][25] - 可在智能戒指等边缘设备运行,处理958条、60维特征数据时,在树莓派配置下总耗时359秒,比TabPFN-2.5快5倍;在RTX 5090上总耗时仅197毫秒 [26][27] - 支持家用显卡低成本微调,量子化学性质预测拟合优度最高达0.711,微调后提升至0.815,大幅降低实验成本 [27][28] 行业影响与未来展望 - LimiX技术报告揭示了LDM的缩放定律,表明该领域进入规模化驱动新范式,性能随参数规模提升而增强 [31][34] - 将AI与工业场景结合在中国具有突出必要性,工业数据规模、质量及政策支持领先全球,新技术范式落地深度和产业带动力将非常显著 [34][35] - 模型开源使中国在非结构化数据建模领域站到世界前沿,成果力压Amazon AWS、INRIA等顶尖机构 [35][36]
新华文轩(601811):管理、运营均稳健的出版龙头
新浪财经· 2025-10-12 08:29
行业概况 - 出版子板块高分红属性突出,在传媒板块中稳定性突出 [1] - 出版作为牌照行业,龙头公司毛利率整体在30%-40%之间,净利率为10%左右,ROE普遍在8%以上 [1] - 行业竞争格局较为清晰,每个省基本有1家或以上的出版集团,兼具出版、发行功能 [1] - 教材、教辅的出版发行业务是出版标的普遍的主营业务之一 [1] 板块估值驱动因素 - 2023年ChatGPT逻辑演绎中,市场共识是出版板块面临估值重估,出版公司的内容版权具有系统性、规整性,能作为数据语料库的重要来源,属于AI三要素中的结构化数据部分 [1] - 2024年市场偏好高分红板块,出版板块主要龙头的股息率在传媒板块中相对较高 [1] 公司业务与运营 - 公司是出版板块最大的六家龙头之一,管理与运营能力突出 [2] - 管理能力主要体现在产业链一体化协同经营,做好需求侧与供给侧管理,打造面向行业的供应链服务能力,并深化经营改革提高供给能力 [2] - 运营能力主要体现在培养业务新增长点,通过门店调整、线上线下融合发展对冲外部风险,内容定制产品开发提升了部分细分品类市占率,并优化图书产品结构适配双减政策 [2] - 降本增效方面,推进物流印装设施智能化改造、采购与费用管理、应收账款管理 [2] 公司业务板块 - 出版主业:公司旗下拥有15家出版传媒单位,涉及图书、报刊、音像、电子、网络等品类 [2] - 阅读服务:在四川省有181家零售门店,并自建官网及云店、第三方电商平台、内容电商等渠道,提供图书、文创、电子书、有声书等产品,构建了多场景的线上线下阅读服务体系 [2] - 教育服务:公司旗下152家分公司组成教育服务网络覆盖四川省,总部与分公司分工明确 [2] 财务预测 - 预计公司2025-2027年分别实现归母净利润16.81亿元、17.79亿元、19.10亿元 [3] - 对应PE分别为11倍、10倍、10倍 [3]