Workflow
Zebra-CoT:开创性视觉思维链数据集问世,多模态推理准确率提升13%
具身智能之心·2025-07-24 17:53

背景 - 人类解决复杂问题时借助图表、草图等视觉辅助工具,训练多模态模型实现类似能力面临两大挑战:现有视觉思维链性能欠佳且缺乏高质量训练数据[3] - 前沿多模态模型在视觉思维链方面主要通过代理管道利用外部工具实现视觉编程,但具备交替生成文本和图像能力的模型存在生成无效推理辅助工具或缺乏多模态生成训练的问题[3] - 专门模型在特定场景展示视觉思维链能力,但通用高质量视觉思维链基础模型缺失,主因缺乏大规模多样化交替文本-图像推理训练数据集[3] 核心创新点 - 提出Zebra-CoT数据集,包含182,384个逻辑连贯的交替文本-图像推理轨迹样本,覆盖科学问题、2D/3D视觉推理、视觉逻辑与策略游戏四大类别[6] - 突破现有数据集单一任务限制和语义对齐弱的问题,按高质量文本推理数据集标准构建[6] 数据集构建 覆盖范围 - 科学推理:几何、物理、化学、算法问题等[9] - 2D视觉推理:视觉搜索、视觉拼图等[9] - 3D视觉推理:3D多跳目标计数、具身思维链、机器人规划[9] - 视觉逻辑与策略游戏:国际象棋、迷宫、俄罗斯方块等[9] 数据来源与处理 - 真实世界数据:从数学、物理、编程等领域在线资源获取并清洗含多模态的原始推理轨迹[10] - 合成数据:通过生成图像结合推理模板创建示例,利用视觉语言模型填充模板占位符增强推理轨迹多样性[10] 规模与分布 - 总量182,384样本,视觉逻辑与策略游戏占比最高达36.7%,2D视觉推理占28.5%,3D视觉推理占21.7%,科学推理占13.2%[12] - 子类别中国际象棋样本量最大(20,483,占11.2%),迷宫(20,000,11.0%)和俄罗斯方块(10,000,5.5%)次之[13] 模型微调与性能 - Anole-Zebra-CoT模型在分布内测试集准确率从4.2%提升至16.9%,相对提升4倍[14] - 在7个视觉推理基准测试中平均提升4.9%,视觉逻辑基准最高提升13.1%[14] - Bagel-Zebra-CoT模型微调后实现原生无法生成的交替文本-图像输出能力[15] 局限 - 合成数据依赖模板生成,文本推理多样性和表达性可能受限[18] - 部分子任务样本量小(几何0.6%、竞争编程0.7%),影响模型专项能力[18] - 模型在部分子任务上性能提升不显著甚至下降(如EMMA物理子任务)[18]