项目背景与核心观点 - 全开源多模态大模型的性能长期落后于闭源和半开源模型,核心瓶颈在于“数据质量鸿沟”而非模型结构[1][2] - 清华大学与腾讯混元团队推出全栈式开源解决方案Bee项目,旨在通过提升数据质量来缩小开源社区与顶尖模型的差距[2] - 当前MLLM领域存在三层结构:顶尖闭源模型、权重开放但数据私有的半开源模型、以及性能落后的全开源模型[5] Honey-Data-15M数据集 - 数据集规模达1500万样本,经过多重精细清洗和创新性的双层思维链扩充[6][16] - 采用双层CoT推理结构:约1220万短CoT样本培养基础逻辑能力,约270万长CoT样本针对复杂问题设计[19] - 数据集来源多样化,覆盖7大领域:通用、图表、描述、STEM、文档、定位与计数、OCR[17] HoneyPipe数据增强管线 - 构建了基于DataStudio框架的自动化数据增强流程,提供透明可复现的方法论[12] - 流程分为三个阶段:噪声与无关性过滤、短CoT增强与验证、长CoT增强循环[18] - 使用规则过滤和模型过滤确保图文语义一致性,并通过LLM-as-a-Judge进行保真度验证[18] Bee-8B模型架构与训练 - 模型基于Qwen3-8B LLM、SigLIP2-so400m-patch14-384视觉编码器和简单的两层MLP投影器[23] - 采用五阶段训练配方:MLP预热、视觉-语言对齐、多模态SFT、高效精炼SFT、策略优化RL[22][27][24] - 关键的多模态SFT阶段在完整的Honey-Data-15M数据集上进行,全面注入复杂推理能力[27] 性能表现与行业影响 - 在数学与推理任务上表现突出:MathVerse基准达67.0分,超越InternVL3.5-8B的61.5分;LogicVista以61.3分登顶[28] - 在图表与文档任务上优势明显:CharXiv-RQ获得57.3分,以近12%优势超越所有对手[28] - 在通用VQA任务上全面领先:MMStar达71.4分,MMVet达83.9分,CountBench达93.0分[25][28] - 项目证明通过优先保证数据质量的透明方法论,比盲目堆砌数据量更有效[26]
打破数据质量鸿沟!清华腾讯Bee项目发布1500万高质量数据集,刷新MLLM全栈开源SOTA