结构化数据 - 财报，业绩电话会，研报，新闻

结构化数据

搜索文档

黄仁勋 GTC 2026 演讲实录：所有SaaS公司都将消失；Token成本全球最低；“龙虾”创造了历史；Feynman 架构已在路上

AI前线· 2026-03-17 07:30

公司战略定位 - 公司已从单一的图形处理器供应商转型为为“数万亿美元AI基建时代”提供完整技术栈的“总包工头” [2] - 公司的核心壁垒是CUDA软件生态及其庞大的安装基数，这形成了强大的“飞轮效应”，吸引了开发者、催生新市场并持续降低算力成本 [3][6] - 公司业务覆盖AI全领域，是全球唯一能运行语言、生物、图形、视觉、机器人、边缘及云端所有AI领域的平台 [18] CUDA生态与飞轮效应 - CUDA架构诞生20年，其单指令多线程（SIMT）架构和“tiles”功能降低了编程难度，并围绕其形成了包含数千种工具、编译器、框架和库的庞大生态 [4] - 公司在全球建立了数亿块运行CUDA的GPU和计算系统，服务每一朵云、每一家计算机公司和几乎每一个行业，构成了飞轮效应的基础 [6] - 飞轮效应表现为：安装基数吸引开发者，开发者创造新算法和技术突破，催生新市场并扩大生态，进而进一步扩大安装基数，同时使计算成本持续下降 [6][7] - 庞大的安装基数使得公司愿意持续优化软件，因为每项新优化都能让数百万用户受益，这延长了硬件（如六年前出货的Ampere架构）的生命周期，甚至在云上出现定价上涨 [6][7] 数据处理基础设施变革 - AI的快速发展正推动全球数据处理体系发生结构性变革，核心是结构化数据与非结构化数据的全面加速 [8] - 企业计算长期建立在结构化数据（数据框）之上，未来AI系统和智能体也将直接访问和使用这些数据库，要求数据处理基础设施获得数量级性能提升 [10] - 全球每年产生的数据中约90%是非结构化数据（如向量数据库、PDF、视频、语音），AI的多模态理解能力正将其转化为可计算的信息资源 [12] - 为支持这一转变，公司构建了两项关键基础技术：用于加速结构化数据处理的cuDF和用于处理非结构化数据及AI数据的cuVS [13] - 这些技术正逐步融入全球数据处理生态，例如IBM正利用cuDF加速其IBM watsonx.data平台 [13] AI原生行业爆发与市场前景 - 2025年风险投资对AI初创公司的投入高达1500亿美元，创历史之最，投资规模跃升至数十亿美元级，因为这些公司普遍需要海量算力和Token [15] - AI行业爆发源于三件大事：ChatGPT开启生成式AI时代、推理AI（如o1/o3）的出现以及Claude Code开启代理（Agentic）时代 [15] - AI已从“感知”进化到“生成”、“推理”，现在可以执行高效的实际工作，“推理拐点”已经到来，过去两年计算需求增长了约10,000倍，使用量增长约100倍 [17] - 公司预见通过2027年的营收将至少达到1万亿美元，2025年是公司的“推理之年” [17] - 公司业务中，60%来自顶级云服务商，40%来自区域云、主权云、企业级服务器及工业自动化 [18] AI推理性能与成本优势 - AI推理是最困难也是最关键的商业环节，它直接决定AI服务的收入来源 [22] - 衡量AI系统效率的关键指标是每瓦特生成多少token，公司从Hopper H200到Grace Blackwell NVLink 72架构，实现了每瓦特性能提升约35倍（分析师认为接近50倍），并带来更低的token成本 [22] - 通过极致的软硬件协同设计（如NVFP4计算架构、NVLink 72、Dynamo、TensorRT-LLM等），公司构建了完整的大模型推理技术体系 [20] - 仅通过更新软件栈，就能将部分AI推理平台的生成速度从约700 token/秒提升至接近5000 token/秒，性能提升约7倍 [25] - 公司的Token成本在全球范围内具有绝对优势，即便竞争对手的架构免费，其总成本（如1GW数据中心工厂15年摊销成本高达400亿美元）也不够便宜 [25] - 数据中心正从存储和计算中心转变为生产token的“AI工厂”，token成为新的数字商品 [27] Vera Rubin AI超级计算平台 - Vera Rubin是一个全新的计算平台，由七款芯片组成，涵盖计算、网络和存储，是目前最先进的POD规模AI平台 [28] - 该平台包含40个机架、1.2千万亿个晶体管、近2万个公司芯片、1152个NVIDIA Rubin GPU、60 exaflops运算能力以及10 PB/s总扩展带宽，目前已全面投产 [28] - 该平台得到了Anthropic、OpenAI、Meta、Mistral AI及所有主要云提供商的支持 [28] - 过去十年间AI计算能力实现了约4000万倍的提升，推动数据中心向“AI超级计算机”形态演进 [30] - Vera Rubin是一套从硬件到软件完全纵向整合的计算平台，专为智能体AI设计，重新设计了计算、存储和网络架构 [31] - 平台硬件包括全新的NVIDIA Vera CPU，该CPU针对高性能、大规模数据处理和能效优化，是全球首个在数据中心采用LPDDR5内存的CPU，并已开始单独销售，有望成为一项数十亿美元级业务 [33] - 系统采用100%液冷架构，通过45°C热水散热降低制冷成本，并将整机安装时间从两天缩短至约两小时 [33] - 网络互连采用第六代NVLink架构，并推出了全球首个CPO光电共封装的NVIDIA Spectrum-X以太网交换机 [35] - 通过Kyber机架架构的Rubin Ultra Compute System，可以在一个NVLink域中连接144个GPU，形成大规模统一计算机 [35] Feynman GPU架构与深度整合 - Feynman GPU架构将采用定制化HBM技术，可能基于HBM4E增强版或定制化HBM5方案，允许将部分GPU数据处理逻辑嵌入存储底层，实现超高带宽与低延迟 [41][42] - Feynman平台将搭载代号为Rosa的全新CPU，该CPU被设计为AI智能体的编排中枢，旨在高效调度GPU、存储与网络之间的Token流动 [43] - Feynman时代标志着公司将计算、存储和封装进行了深度耦合，正将数据中心演进为一台高度集成的“巨型超级计算机” [44] AI基础设施与数字孪生平台 - 公司推出NVIDIA DSX平台，这是一个面向“AI工厂”的基础设施平台，用于数据中心的数字仿真、虚拟调试和运行期动态优化 [46][47] - 数据中心建设阶段可通过工程仿真工具进行虚拟调试，大幅缩短建设周期；运行后其数字孪生系统可作为“操作系统”，由AI智能体动态调度冷却、电力和网络系统以优化效率 [46] - NVIDIA Omniverse平台被设计用于承载全球规模的数字孪生模型 [49] - 公司的AI计算基础设施正在向太空延伸，计划开发Vera Rubin Space One轨道数据中心 [49] 智能体操作系统与软件生态 - 公司高度评价并正式支持开源项目OpenClaw，其增长速度甚至超过了Linux，被视为智能体计算机的操作系统 [52][54] - OpenClaw能够连接大语言模型，管理计算资源，调用工具和服务，具备任务调度与多模态交互能力 [54] - 公司认为未来所有科技和软件公司都需要制定“OpenClaw战略”，因为企业软件正在从传统SaaS转向以智能体为核心的AaaS（Agentic as a Service） [55] - 公司与OpenClaw作者合作推出NVIDIA NemoClaw参考架构，增加了OpenShell安全组件，提供企业级安全扩展，使企业能安全部署智能体系统 [56][58] 开放模型生态与行业应用 - 公司推进开放模型生态，目前生态已包含接近300万个开放模型，覆盖语言、视觉、生物、物理和自动驾驶等多个领域 [59] - 公司已发布多条开放模型产品线（如Nemotron、Cosmos World Foundation Model、Project GR00T等），并开放训练数据和方法，策略是“纵向整合、横向开放” [59][60] - 公司宣布成立Nemotron Coalition联盟，与多家技术公司合作共同推进模型发展 [61] - 在物理AI领域，全球几乎所有机器人公司与公司合作，公司提供从训练平台、仿真到部署的完整技术体系 [62] - 自动驾驶的“ChatGPT时刻已经到来”，车辆具备推理和语音指令执行能力，公司宣布与比亚迪、现代、日产、吉利（合计年产量约1800万辆）以及Uber成为新的Robotaxi合作伙伴 [64] - AI产业正同时经历三大变革：AI推理与AI工厂、智能体系统革命，以及物理AI与机器人时代 [65]

别问树模型了！死磕结构化数据，清华团队把大模型表格理解推到极限

机器之心· 2025-11-21 12:50

文章核心观点 - 清华大学与稳准智能联合发布的LimiX系列模型是首个真正通用的结构化数据大模型，标志着该领域从专用模型时代进入通用大模型时代，是通往AGI的关键路径之一 [3][6][12] - LimiX模型在分类、回归、缺失值填补等10类任务上均实现领先性能，且无需针对新任务重新训练，解决了传统AI模型低效的痛点 [3][12] - 该模型不仅在基准测试中表现优异，在实际工业应用中也展现出强大能力，已在食品生产、电力市场预测等多个场景成功落地 [21][22] 结构化数据处理的重要性与行业痛点 - 工业化社会的便利背后高度依赖结构化数据的处理，这些数据以精确的行列格式组织，是维持世界运转的基础 [1][2] - 当前LLM大模型擅长文本处理但难以精确理解电子表格等结构化数据，导致行业仍依赖XGBoost、CatBoost等存在十几年的专用模型，每遇新任务需重新训练，效率低下 [3][8] LimiX模型的突破性意义 - LimiX-16M是LDM系列首款模型，首次在结构化数据领域实现真正的通用性，一个模型即可处理分类、回归、缺失值填补等10类任务，无需二次训练 [6][9][12] - 该模型通过海量数据学习自主发现变量关系，拥有类似GPT的通吃能力，性能碾压传统专用模型及TabPFN等基础模型 [9][12][16] 模型性能表现 - 在分类任务中，LimiX-16M在58.6%的数据集上取得最优结果，其轻量版LimiX-2M加入后，家族胜率达68.9% [13] - 回归任务中，两个版本模型包揽前两名，合计胜率达62% [15] - 缺失值填补任务上，LimiX以绝对优势拿下SOTA，如在Analcatdata数据集上的RMSE低至0.194，显著优于MissForest的0.203 [18][19] 实际工业应用案例 - 在食品生产烘干环节，LimiX精准建模工艺参数与含水量关系，预测值与真实值平均偏差小于9%，可解释92%的结果变化 [21] - 电力现货市场预测中，将企业内部最优模型误差从46.93% MAPE大幅降低至25.27% MAPE [21] - 变压器运行状态诊断错误率较XGBoost降低93.5% [21] LimiX-2M轻量级版本优势 - 虽仅2M参数，但性能力压TabPFN-v2和TabICL，超越AutoGluon，仅次于LimiX-16M [24][25] - 可在智能戒指等边缘设备运行，处理958条、60维特征数据时，在树莓派配置下总耗时359秒，比TabPFN-2.5快5倍；在RTX 5090上总耗时仅197毫秒 [26][27] - 支持家用显卡低成本微调，量子化学性质预测拟合优度最高达0.711，微调后提升至0.815，大幅降低实验成本 [27][28] 行业影响与未来展望 - LimiX技术报告揭示了LDM的缩放定律，表明该领域进入规模化驱动新范式，性能随参数规模提升而增强 [31][34] - 将AI与工业场景结合在中国具有突出必要性，工业数据规模、质量及政策支持领先全球，新技术范式落地深度和产业带动力将非常显著 [34][35] - 模型开源使中国在非结构化数据建模领域站到世界前沿，成果力压Amazon AWS、INRIA等顶尖机构 [35][36]

新华文轩(601811)：管理、运营均稳健的出版龙头

新浪财经· 2025-10-12 08:29

行业概况 - 出版子板块高分红属性突出，在传媒板块中稳定性突出 [1] - 出版作为牌照行业，龙头公司毛利率整体在30%-40%之间，净利率为10%左右，ROE普遍在8%以上 [1] - 行业竞争格局较为清晰，每个省基本有1家或以上的出版集团，兼具出版、发行功能 [1] - 教材、教辅的出版发行业务是出版标的普遍的主营业务之一 [1] 板块估值驱动因素 - 2023年ChatGPT逻辑演绎中，市场共识是出版板块面临估值重估，出版公司的内容版权具有系统性、规整性，能作为数据语料库的重要来源，属于AI三要素中的结构化数据部分 [1] - 2024年市场偏好高分红板块，出版板块主要龙头的股息率在传媒板块中相对较高 [1] 公司业务与运营 - 公司是出版板块最大的六家龙头之一，管理与运营能力突出 [2] - 管理能力主要体现在产业链一体化协同经营，做好需求侧与供给侧管理，打造面向行业的供应链服务能力，并深化经营改革提高供给能力 [2] - 运营能力主要体现在培养业务新增长点，通过门店调整、线上线下融合发展对冲外部风险，内容定制产品开发提升了部分细分品类市占率，并优化图书产品结构适配双减政策 [2] - 降本增效方面，推进物流印装设施智能化改造、采购与费用管理、应收账款管理 [2] 公司业务板块 - 出版主业：公司旗下拥有15家出版传媒单位，涉及图书、报刊、音像、电子、网络等品类 [2] - 阅读服务：在四川省有181家零售门店，并自建官网及云店、第三方电商平台、内容电商等渠道，提供图书、文创、电子书、有声书等产品，构建了多场景的线上线下阅读服务体系 [2] - 教育服务：公司旗下152家分公司组成教育服务网络覆盖四川省，总部与分公司分工明确 [2] 财务预测 - 预计公司2025-2027年分别实现归母净利润16.81亿元、17.79亿元、19.10亿元 [3] - 对应PE分别为11倍、10倍、10倍 [3]