LLM大模型
搜索文档
别问树模型了!死磕结构化数据,清华团队把大模型表格理解推到极限
机器之心· 2025-11-21 12:50
文章核心观点 - 清华大学与稳准智能联合发布的LimiX系列模型是首个真正通用的结构化数据大模型,标志着该领域从专用模型时代进入通用大模型时代,是通往AGI的关键路径之一 [3][6][12] - LimiX模型在分类、回归、缺失值填补等10类任务上均实现领先性能,且无需针对新任务重新训练,解决了传统AI模型低效的痛点 [3][12] - 该模型不仅在基准测试中表现优异,在实际工业应用中也展现出强大能力,已在食品生产、电力市场预测等多个场景成功落地 [21][22] 结构化数据处理的重要性与行业痛点 - 工业化社会的便利背后高度依赖结构化数据的处理,这些数据以精确的行列格式组织,是维持世界运转的基础 [1][2] - 当前LLM大模型擅长文本处理但难以精确理解电子表格等结构化数据,导致行业仍依赖XGBoost、CatBoost等存在十几年的专用模型,每遇新任务需重新训练,效率低下 [3][8] LimiX模型的突破性意义 - LimiX-16M是LDM系列首款模型,首次在结构化数据领域实现真正的通用性,一个模型即可处理分类、回归、缺失值填补等10类任务,无需二次训练 [6][9][12] - 该模型通过海量数据学习自主发现变量关系,拥有类似GPT的通吃能力,性能碾压传统专用模型及TabPFN等基础模型 [9][12][16] 模型性能表现 - 在分类任务中,LimiX-16M在58.6%的数据集上取得最优结果,其轻量版LimiX-2M加入后,家族胜率达68.9% [13] - 回归任务中,两个版本模型包揽前两名,合计胜率达62% [15] - 缺失值填补任务上,LimiX以绝对优势拿下SOTA,如在Analcatdata数据集上的RMSE低至0.194,显著优于MissForest的0.203 [18][19] 实际工业应用案例 - 在食品生产烘干环节,LimiX精准建模工艺参数与含水量关系,预测值与真实值平均偏差小于9%,可解释92%的结果变化 [21] - 电力现货市场预测中,将企业内部最优模型误差从46.93% MAPE大幅降低至25.27% MAPE [21] - 变压器运行状态诊断错误率较XGBoost降低93.5% [21] LimiX-2M轻量级版本优势 - 虽仅2M参数,但性能力压TabPFN-v2和TabICL,超越AutoGluon,仅次于LimiX-16M [24][25] - 可在智能戒指等边缘设备运行,处理958条、60维特征数据时,在树莓派配置下总耗时359秒,比TabPFN-2.5快5倍;在RTX 5090上总耗时仅197毫秒 [26][27] - 支持家用显卡低成本微调,量子化学性质预测拟合优度最高达0.711,微调后提升至0.815,大幅降低实验成本 [27][28] 行业影响与未来展望 - LimiX技术报告揭示了LDM的缩放定律,表明该领域进入规模化驱动新范式,性能随参数规模提升而增强 [31][34] - 将AI与工业场景结合在中国具有突出必要性,工业数据规模、质量及政策支持领先全球,新技术范式落地深度和产业带动力将非常显著 [34][35] - 模型开源使中国在非结构化数据建模领域站到世界前沿,成果力压Amazon AWS、INRIA等顶尖机构 [35][36]
从实习生到100亿美金公司CEO,他只用了3年时间,现才25岁
创业邦· 2025-04-05 18:06
公司融资与估值 - 公司完成6.25亿美元C轮融资,投前估值96亿美元,投后估值达100亿美元[3] - 本轮融资由Thrive和a16z领投,Accel作为新投资人加入[3] - 相比2024年11月完成的B轮融资(投后估值26亿美元),估值在不到6个月内增长4倍[4] - 公司ARR突破2亿美元,估值ARR倍数维持在50倍左右,与B轮融资时持平[4] 财务与运营指标 - 公司NDR达到200%,显著高于SaaS行业标杆企业(Slack约130%,Zoom约140%,Salesforce约110%)[4] - 截至2025年4月,公司拥有数百万程序员用户,每日编辑超过10亿个字符[15][18] - 公司专有模型生成的代码量超过全球绝大多数LLM[15] 产品与发展历程 - 公司成立于2022年,核心产品Cursor是基于Visual Studio Code的AI驱动代码编辑器[12] - 2023年获得OpenAI领投800万美元种子轮融资[5] - 2024年5月完成a16z领投6000万美元A轮融资,估值达4亿美元[5] - 2024年11月收购AI编程助手Supermaven,同年完成Thrive和a16z领投超1亿美元B轮融资,估值25亿美元[7][14] - 产品理念强调重新构想开发者与AI的关系,创造真正的伙伴关系而非简单工具[14] 创始团队与竞争优势 - 联合创始人兼CEO Michael Truell年仅25岁,创立公司前仅有实习和研究经历[6][9] - 公司成功因素包括:编程是LLM大模型的PMF、快速执行迭代能力、卓越用户体验、避免过度依赖单一AI供应商、依靠口碑传播而非渠道分发[5] - 竞争优势在于通过大量用户使用数据不断优化专有模型,形成数据护城河[16]