DataFlex - 财报，业绩电话会，研报，新闻 - Reportify

DataFlex

搜索文档

北大联合Llama-Factory推出DataFlex：工业级数据动态训练系统

机器之心· 2026-04-16 13:09

当大模型训练进入深水区，竞争的关键已经不再只是「模型参数怎么调」，而逐渐转向一个更核心、也更难系统解决的问题：模型在训练过程中究竟看到了什么数据、以什么比例看到、哪些样本应该被更频繁地学习。这些因素正在越来越直接地决定训练效率、泛化能力以及最终模型性能。围绕数据选择、数据混合和样本重加权，学术界已经提出了不少方法。但长期以来，这些方法大多分散在彼此独立的代码仓库中：接口不统一、训练流程不一致、复现门槛高、横向比较困难。更重要的是，很多方法依赖 embedding、模型打分、梯度或中间推理信号，真正难的从来不是「提出一个方法」，而是把这些方法稳定、可复现地接入主流训练流程，并纳入一套统一的训练闭环。近日，北京大学张文涛教授、鄂维南院士团队，联合 LLaMA-Factory Team、上海算法创新研究院等机构，推出了面向大模型训练过程的数据中心动态训练框架 DataFlex。它并不是单一算法或若干脚本的简单堆叠，而是一套建立在 LLaMA-Factory 之上的统一训练基础设施：将动态样本选择、动态数据混合、动态样本加权三类核心能力真正纳入训练过程，使「数据如何参与训练」从经验式配置， ...

Data-Centric Dynamic Training System

Data-Centric AI

Artificial Intelligence

Data-Centric Dynamic Training System

Data-Centric AI

Artificial Intelligence