Seek .-豆包1.5深度思考模型发布：暴砍参数量，能看图思考，数学编程超DeepSeek-R1

文章核心观点火山引擎发布豆包1.5·深度思考模型，在性能、能力和应用场景上有显著提升，同时升级了相关模型，其新能力或成推理模型升级重要方向，同日还发布了其他解决方案和套件 [1][3][21] 分组1：豆包1.5·深度思考模型发布及基础情况 - 火山引擎发布豆包1.5·深度思考模型，采用MoE架构，总参数量200B，激活参数20B，在多项基准测试达或接近全球第一梯队水平 [1] - 截至2025年3月底，豆包大模型日均tokens调用量超12.7万亿，是2024年12月的3倍，是一年前的106倍，2024年火山引擎以46.4%市场份额居中国公有云大模型调用量市场第一 [3] 分组2：豆包1.5·深度思考模型能力特点 - 较小参数量和激活参数量使其训练和推理成本低，高并发场景延迟仅20毫秒 [4] - 具备“边想边搜”能力，豆包App基于此模型定向训练，如推荐露营装备时可拆解需求、规划信息并补充搜索 [4] - 具备视觉理解能力，能基于文字、图像信息思考，如给出预算内点餐推荐 [6] - 模型团队优化数据处理策略，融合可验证与创意性数据，采用创新双轨奖励机制优化算法 [7] 分组3：豆包1.5·深度思考模型测试表现 - 在AIME 2024、2025数学测试中得分与OpenAI o3 - mini - high基本打平，Beyond AIME测试有明显差距 [8] - 在GPQA Diamond测试集得分为77.3，与OpenAI o1、o3 - mini - high仅有微小差距 [10] - 在Code Forces和SWE - bench编程基准测试接近或超越DeepSeek - R1 [10] - 在ARC - AGI测试得分39.9分，大幅超过OpenAI o1和o3 - mini - high [10] - 在创意写作等非推理任务展示泛化能力，能胜任更广泛复杂场景 [10] 分组4：相关模型升级情况 - 豆包·文生图模型3.0能实现更好文字排版、实拍级图像生成和2K高清图片生成，应用于多场景，在Artificial Analysis竞技场排名全球第一梯队 [11][13][15] - 豆包·视觉理解模型新版本视觉定位能力强，支持多种定位方式，应用于多场景，视频理解能力大幅提升，结合向量搜索可对视频语义搜索 [17][20] 分组5：其他发布内容及行业趋势 - 推理模型成国内厂商角逐重要方向，豆包1.5·深度思考模型新能力或成下一轮升级重要方向 [21] - 火山引擎同日发布OS Agent解决方案、GUI Agent大模型（豆包1.5·UI - TARS）和AI云原生·ServingKit推理套件 [21]