Workflow
看图猜位置不输o3!字节发布Seed1.5-VL多模态推理模型,在60个主流基准测试中拿下38项第一
量子位·2025-05-14 14:07

模型性能表现 - 在60个主流基准测试中拿下38项第一,包括19项视频基准测试中的14项和7项GUI智能体任务中的3项 [1][32] - 在复杂谜题推理、OCR、图表理解、3D空间理解等方面表现出色 [3] - 在GUI界面操作和游戏场景中显著优于OpenAI的CUA和Claude 3.7等模型 [10][34] - 在内部测试中尤其在视觉推理、文档理解、3D空间理解等方面表现出色 [36] 模型架构 - 由532M视觉编码器+200亿活跃参数组成 [1][12] - 核心组件包括SeedViT(图像视频编码)、MLP适配器(视觉特征投射)和大语言模型(多模态输入推理) [13] - 支持多种分辨率图像输入并通过原生分辨率变换保留细节 [14] - 视频处理采用动态帧分辨率采样策略 [14] - 引入时间戳标记增强时间信息感知能力 [15] 训练方法 - 使用3万亿个多样化高质量多模态标注数据 [18] - 预训练分为三个阶段:MLP适配器对齐、视觉定位OCR能力掌握、视频理解和复杂推理任务适应 [19] - 后训练采用监督微调和强化学习技术,包括高质量指令数据微调和PPO算法训练 [24][25] - 开发混合并行化、工作负载平衡等优化技术提高训练吞吐量并降低成本 [30][35] 实测表现 - 能准确识别图像中物体数量,如区分黑猫和影子 [4] - 能处理长度惊人、中英混杂的消费小票并转换为表格 [8] - 在"看图找地理位置"测试中表现接近行业领先水平,误差在160-440公里 [39][40][41] 行业影响 - 该轻量级模型以较小参数量达到行业顶尖水平 [1] - 在多项任务上超越OpenAI、Claude等主流模型 [32][34][36] - 技术报告和模型已公开,可在Hugging Face在线体验 [2][42]