字节最强多模态模型登陆火山引擎！Seed1.5-VL靠20B激活参数狂揽38项SOTA

多模态大模型Seed1.5-VL发布 - 火山引擎发布5款AI模型和产品，包括豆包・视频生成模型Seedance 1.0 lite、升级后的豆包1.5・视觉深度思考模型(Seed1.5-VL)、新版豆包・音乐模型等 [1] - Seed1.5-VL具备更强的通用多模态理解和推理能力，新增视频理解、多模态智能体能力 [3] - 模型仅需一张图和提示词就能精准识别多种元素并分类给出坐标 [4] - 在60个公开评测基准中，有38个取得SOTA表现，性能与Gemini2.5 Pro相当 [6] 模型性能表现 - 推理输入价格仅为每千tokens 0.003元，输出价格为每千tokens 0.009元 [7] - 在视觉定位测试中，10秒内精准识别货架商品并完成价格计算 [14] - 能准确识别5只"生气"的小猫并给出坐标 [17] - 10秒内解决公务员图形推理题目，展示强大视觉推理能力 [20] 技术架构创新 - 由视觉编码模块SeedViT(532M参数)、MLP适配器和基于MoE架构的Seed1.5-LLM(20B激活参数)组成 [27] - 训练分为三个阶段：初期对齐视觉语言表征、中期强化知识积累、后期加入视频等新领域数据 [29] - 采用监督微调与强化学习组合策略，整合RLHF/RLVR等先进技术 [30] - 采用多模态并行框架和局部贪心负载均衡算法优化计算效率 [31] 应用场景 - 可用于构建AI视觉助手、巡检系统、交互Agent或智能摄像头 [7] - 多模态智能体能力可识别并点击"点赞"按钮，模拟用户行为 [22] - 正在重塑与视觉世界交互的方式，拓宽通用视觉系统应用路径 [31]