Workflow
Chat BI
icon
搜索文档
技术更新 or 组织重塑,企业如何用好“数据智能”?
AI前线· 2025-06-17 14:56
数据构建的挑战与趋势 - 数据构建方式正从割裂的范式向统一的训练框架演进,例如清华大学提出的直觉微调将监督微调与人类反馈强化学习融合,减少数据依赖并提升训练效率 [5] - 数据构建趋于轻量化和自动化,大量合成数据的出现,尤其是偏好标注的自动化,大大减少了人工介入 [5] - 数据量并非越多越好,越来越多团队开始重视数据蒸馏技术,从海量数据中筛选最具价值的部分,例如从50万条数据中可能仅10至20万条有效 [5] - 数据配比至关重要,训练垂直领域大模型不能完全舍弃通用数据,需合理融合通用与领域数据 [6] - 任务上的数据分布要均衡,构建模型应涵盖问答、多轮对话、文本质检等多种任务类型,从业务和任务两个维度保证数据全面性 [6] - 最关键的是数据质量,必须对数据进行筛选和清洗,剔除低质量样本,同时提升数据多样性和丰富度 [6] - 数据构建正从“重数量”转向“重质量”,对高质量标注数据的重视程度提升,对低质量、泛数据的依赖明显下降 [6][7] - 场景和领域适配的数据变得更为关键,企业级应用中通用模型常需融合特定行业知识,例如金融风控规则多样性需要精确标注,工业质检中缺陷样本稀缺 [7] - 数据相关工作“脏且累”,周期长、过程枯燥且缺乏直接成效呈现,在企业服务中真正涉及模型微调的客户比例很低,约十分之一到二十分之一 [9] - 企业内部存在大量非结构化数据,文档解析能力如表格识别、跨页拼接、段落标题识别与逻辑结构切分会直接影响大模型生成内容的准确性和可控性 [9] 数据质量与应用实践 - 高质量数据在单个样本层面信息量更大,对模型训练更有帮助,尤其是“难例”样本,即模型处理难度高、提升效果明显的样本 [24] - 整体数据集质量需任务覆盖全面,如问答、写作、对话、推理、计算等都需涵盖,且各类数据分布应均衡 [24] - 响应准确性要求高,事实错误率应低于1%,逻辑矛盾要尽量减少,通常需通过人工或交叉审核保障 [24] - 指令需具备泛化能力,训练数据应涵盖同一问题的多种提问方式,以提升模型稳定性和泛化能力 [24] - 从应用角度看,高质量数据需贴近真实业务,很多开源数据集与企业需求差距大 [24] - 结构清晰度是关键,有章节的文档比无结构文档更好,治理良好、服务于商业智能的数据库质量自然高于原始数据 [25] - 在智能问数场景中,企业底层数据治理质量不高,字段命名混乱,对语义层构建提出很高要求,导致流程复杂且调试成本高 [11] - 更务实的做法是将核心数据通过标准接口暴露,确保模型调用的是准确、可信的输入,以建立查数场景的稳定性与可控性 [11] - 货拉拉在数据准备阶段进行了大量前置工作,特别是在问题类型的分类上做了精细拆分,将问题细分为十几个类型,针对每一类准备对应数据样本 [12] - 货拉拉将训练数据构建分为训练集、验证集和测评集三类,其中训练集包含约三十万条自然语言到领域特定语言的转换样本 [13] 智能化数据管理技术演进 - Deep Research 不仅代表传统检索增强生成的扩展,更代表着大模型应用从检索辅助走向多阶段、可规划推理的质变 [4][18] - 基础大模型自身能力实现飞跃,推理深度显著增强,且对长上下文的处理能力有实质性提升,模型能真正“记住”长文档内容并在推理中利用 [17] - 当前阶段最关键的是先把效果提上来,只有当效果达到一定水平并解锁业务价值后,才有必要考虑优化成本 [19] - Deep Research 能力的另一重要意义在于显著降低构建门槛和实施成本,业务人员通过自然语言交互就能实现“七八十分”的原型效果 [20] - 在 Deep Research 框架中更强调基于标准作业程序的能力演进,通过收集和分析用户行为不断积累并优化标准作业程序,不依赖微调或大规模数据标注 [21] - 企业真正的利润来自于标准化和可规模化,大模型的角色应像水一样流向其能发挥作用的地方,而非硬性作为“主体”插入流程 [32] - 正确的方式是以业务流程为主,将大模型嵌入其中找到价值点,而非让其他人围着模型转 [32] - 货拉拉采用“场景驱动”方式,通过“智能数据实体四象限”模型辅助判断,根据数据标准化程度和是否是指标数据为不同场景制定相对“半流程化”的标准作业程序 [22][23] - 未来数据智能应用一定是“智能体 + 工作流”的模式,例如数据归因是一个有步骤、有逻辑的过程,工作流能固定复杂逻辑并具备灵活性 [30][31] 企业落地与组织影响 - 企业组织模式正从“以业务流程为中心”转向“以数据流为中心”,在数字时代企业越来越以信息的获取、加工与辅助决策为核心 [34] - 数据赋能业务越来越依赖跨部门协同与融合,业务和技术之间的界限在逐渐消融,未来有效的组织架构是业务与技术深度融合、扁平化、能快速协同的模式 [34] - 真正成功的案例中,大模型技术占比可能仅30%左右,更多价值来自于数据打通以及业务部门协同,完成一些原来“想做但做不了”的事 [35] - 过去是首席信息官推动数字化,现在是首席执行官推动智能化和大模型,以前推不动的项目现在能推得动 [35] - 大模型能力更多是一场技术升级,是改革而非革命,目前很难把所有原有业务和数据完全承接到人工智能系统里 [36] - 战略上应保持积极乐观,看到未来发展潜力;战术上则需保持一定悲观,做好边界管理,控制用户预期 [36] - 当前人工智能产品已过初期探索阶段,更大挑战是如何落地到有实际业务价值的场景中,查询数据只是第一步,真正价值是生成报表、完成数据任务或将数据分发服务业务 [29] - 很多成功的人工智能落地实践要求人工智能系统与业务共担关键绩效指标,但当前大模型幻觉难以彻底避免,要共担就必须投入大量精力降低误差 [29] - 货拉拉发现无论平台设计多简洁,用户仍觉得学习成本高,推广起来非常困难,业务用户如运营、商业智能或分析师自己去维护智能体逻辑存在挑战 [29]