数据筛选 - 财报，业绩电话会，研报，新闻

数据筛选

搜索文档

全新预训练数据筛选方案，让数据效率提升10倍！配置仅需fastText评分器｜港科大vivo出品

量子位· 2025-05-15 12:26

核心观点 - vivo与香港科技大学联合提出的PreSelect方法是一种轻量级高效的数据筛选技术，通过fastText评分器减少10倍计算需求，量化数据对模型能力的贡献[1][2][3] - 该方法基于"压缩即智能"理论，通过预测强度指标（S∈[0,1]）筛选能显著提升模型效果的数据，相比传统方法具有更强客观性和泛化性[7][8][9][13] - 实验显示PreSelect在17项下游任务中平均提升模型效果3%，在3B参数模型上关键指标如HumanEval通过率提升326.67%[20][23][24] 技术原理 - **预测强度计算**：通过模型loss排序与benchmark得分排序的一致性量化数据价值，公式为$${\bf S}=\sum_{1\leq i<N}\sum_{i<j\leq N}\mathbb{I}\{C_{i}>C_{j}\}/Z$$，其中C为BPC归一化loss[9][14] - **系统框架**：用fastText代理模型近似预测强度，将全量数据计算成本从O(N)降至O(1)[15][16][17] - **筛选维度**：支持样本级别和特定能力维度的细粒度筛选，避免传统方法的主观偏见[5] 性能对比 - **基准测试**：在RefinedWeb数据集上，PreSelect筛选8B tokens训练的400M模型平均得分27.0，显著高于DCLM的25.7和Random的24.2[19] - **规模扩展**：1B模型使用30%筛选阈值时，PreSelect以90B数据达到34.0平均分，优于DCLM同数据量的32.6[19] - **领域覆盖**：筛选结果中高质量知识类domain占比显著提升，如en.wikipedia.org密度达3.12%，同时保持原始数据长度分布[25][26] 应用效果 - **跨数据集验证**：在C4数据集上训练的1B模型，PreSelect使SciO准确率达69.5，超越MATES的67.3和Random的65.8[21] - **商业数据适配**：在vivo自有5T tokens数据中筛选500B训练3B模型，BBH得分提升3.75%，MMLU提升13.68%[23] - **计算效率**：相比DCLM需要100B tokens训练3B模型，PreSelect用相同数据量实现39.5平均分，节省33%计算资源[19]

PreSelect（vivo自研大模型数据筛选方法）

PreSelect（vivo自研大模型数据筛选方法）