豆包·视觉理解模型 - 财报，业绩电话会，研报，新闻

豆包·视觉理解模型

搜索文档

豆包可以跟你打视频了，陪我看《甄嬛传》还挺懂！难倒一众AI的“看时钟”也没难倒它

量子位· 2025-05-26 16:18

国产AI突破视觉理解能力 - 国产AI豆包成功解决大模型识别时钟难题，能通过视频实时准确报时，从4点14分到4点15分[1][2][3] - 豆包新增视频通话功能，实现边看边聊的交互方式，并接入联网搜索提升回答准确性和时效性[4][5][6] - 视频通话功能可实时总结微博热搜等网络热点新闻，增强互动趣味性和可靠性[7][8] 视频通话功能实测表现 - 豆包能作为看剧搭子，实时识别《甄嬛传》剧情并分析角色动机，如判断祺贵人企图借皇后之手扳倒甄嬛[15][16][17] - 在生活场景中，豆包可识别食材并详细讲解烹饪步骤，解决做菜难题[20][21][22] - 教育场景表现突出，能准确识别物理题、论文和代码，提供详细解题过程和答案[23] 核心技术能力解析 - 豆包·视觉理解模型具备强大内容识别能力，可精准识别物体类别、空间关系及文化知识，如识别猫的影子或丁达尔效应[24][25][26][27][30] - 模型拥有复杂逻辑计算能力，在教育场景中能理解微积分题目并进行推理计算[33][34] - 视觉描述和创作能力支撑视频通话功能实现又快又准的交互体验[35][36] 行业影响与趋势 - AI与人类交互方式正向更趣味化、实用化方向发展，视频通话功能体现技术落地价值[37] - 视觉理解技术的突破为AI在娱乐、教育、生活服务等场景的应用开辟新路径[15][20][23]

江海证券· 2025-04-18 15:26

报告行业投资评级 - 行业评级为增持（维持） [1] 报告的核心观点 - 豆包大模型日均tokens调用量持续大幅攀升，利好数据要素和算力板块 [4] - 持续看好AI应用投资机会，提示重点关注汉得信息、创业黑马、合合信息等 [10] 根据相关目录分别进行总结行业表现 - 近十二个月，行业1个月相对收益-6.58%、绝对收益-12.42%；3个月相对收益1.3%、绝对收益0.56%；12个月相对收益8.21%、绝对收益15.65% [2] 相关事件 - 2025年4月17日，火山引擎发布豆包1.5·深度思考模型，升级豆包·文生图模型3.0、豆包·视觉理解模型；面向Agent服务，发布OS Agent解决方案、GUI Agent大模型--豆包1.5·UI-TARS模型；面向大规模推理，发布AI云原生·ServingKit推理套件 [3] 豆包大模型调用量情况 - 截至2025年3月底，豆包大模型日均tokens调用量超12.7万亿，是2024年12月的3倍，是一年前发布时的106倍；2024年中国公有云大模型调用量激增，火山引擎以46.4%的市场份额位居中国市场第一 [4] 豆包1.5·深度思考模型 - 全新发布，采用MoE架构及双轨奖励机制；在数学、代码、科学等专业领域推理任务中表现出色，达到或接近全球第一梯队水平；在创意写作等非推理任务中，展示出优秀泛化能力；优化数据处理策略，融合处理可验证数据与创意性数据；采用创新双轨奖励机制，兼顾不同任务优化算法；总参数200B，激活参数仅20B，有训练和推理成本优势；提供行业极高并发承载能力，实现20毫秒极低延迟；豆包APP基于该模型定向训练可“边想边搜”，还具备视觉理解能力 [5][6] 豆包·文生图模型3.0 - 全新升级，能实现更好文字排版表现、实拍级图像生成效果和2K高清图片生成方式；可广泛应用于影视、海报等场景；在文生图领域权威榜单Artificial Analysis竞技场中，排名全球第一梯队 [7][8] 豆包·视觉理解模型 - 全新升级，具备更强视觉定位能力，支持多目标等定位及相关操作，可应用于线下门店巡检等场景；视频理解能力大幅提升，结合向量搜索可直接对视频进行语义搜索，适用于安防等商业化场景 [9] 火山引擎发布的其他内容 - 认为未来AI Agent将在应用Agent和OS Agent两个方向并行发展；发布OS Agent解决方案，通过veFaaS平台封装豆包大模型能力，便于企业和开发者构建轻量级应用；发布GUI Agent大模型——豆包1.5·UI-TARS模型，突破传统自动化工具依赖预设规则的局限；推出ServingKit推理套件，助力企业实现模型快速部署、推理优化及运维可观测，可在2分钟内完成671B DeepSeek R1的下载和预热，13秒内完成推理引擎加载 [10]

AI 云原生·ServingKit 推理套件

AI 云原生·ServingKit 推理套件

豆包 1.5·深度思考模型

AI动态跟踪系列（六）：OpenAIo3、豆包新品首发，关注原生Agent与多模态推理

平安证券· 2025-04-17 21:10

报告行业投资评级 - 强于大市（维持） [1] 报告的核心观点 - 近期新模型解题思路在思维链CoT基础上更重视模型原生Agent能力和多模态推理能力，全球大模型领域竞争激烈，看好AI主题投资机会 [3][34] - 当前Agent在企业端落地进度靠前，AI应用关注OA/ERP/编程/办公等领域，Agent拉动推理端及整体算力需求，看好国产AI算力产业链 [3][34] 根据相关目录分别进行总结 OpenAI o3、o4 - mini新增图像深度思考与Agent能力，Codex CLI智能体开源推动AI编程生态开放 - 4月17日OpenAI发布o3和o4 - mini，是其迄今最智能模型，核心突破在于图像深度思考和Agent能力 [3][4] - o3是强大推理模型，在多方面推动前沿发展，在多个基准设新SOTA，困难现实任务重大错误比o1少20% [5] - o4 - mini针对快速、经济高效推理优化，在数学、编码和视觉任务表现好，非STEM任务及数据科学领域优于o3 - mini [5] - 图像推理方面，o3和o4 - mini首次在思维链中用图像思考，实现高级推理与多工具无缝结合，o3提供多模态代理体验 [9] - Agent方面，o3和o4 - mini可访问ChatGPT工具及自定义工具，能推理解决问题并快速生成答案 [10] - o3和o4 - mini性价比高于前身，预计实际使用更智能、便宜 [12] - OpenAI发布轻量级编程智能体Codex CLI，支持零配置启动，运行安全，可让用户从命令行体验多模态推理 [15] 豆包1.5·深度思考模型对标全球推理模型第一梯队，视觉理解模型实现更强视觉定位能力 - 4月17日火山引擎发布豆包1.5·深度思考模型等新品，推理模型性能达或接近全球第一梯队，增加视觉理解能力，APP可“边想边搜” [3][17] - 多模态方面，豆包·文生图模型3.0在权威榜单排全球第一梯队，新版本豆包·视觉理解模型视觉定位和视频理解能力提升 [17][28] - 企业级服务方面，发布OS Agent、GUI Agent大模型（豆包1.5·UI - TARS）和AI云原生·ServingKit推理套件 [17] - 截至2025年3月底，豆包大模型日均tokens调用量超12.7万亿，是2024年12月的3倍、发布时的106倍，2024年火山引擎公有云大模型调用量市场份额46.4%居中国第一 [18] - 豆包1.5·深度思考模型采用MoE架构，总参数200B，激活参数20B，有高并发承载能力和20毫秒极低延迟 [21] - 豆包APP基于该模型定向训练实现“边想边搜”，如推荐露营装备经3轮搜索给出细致推荐 [24] - 该模型具备视觉理解能力，可用于国外餐厅点餐、分析航拍地貌、企业项目管理等 [27] - OS Agent解决方案可让企业和开发者构建轻量级应用，复杂应用可调用豆包1.5·UI - TARS模型，该模型已上线火山方舟平台 [32] - ServingKit推理套件可助企业快速部署模型、优化推理、运维可观测，能提高KV cache命中率和TPS吞吐量，降低GPU消耗 [33] 投资建议 - AI应用方面，AI + 企服建议关注泛微网络、致远互联等；AI + 办公推荐金山办公、福昕软件等，建议关注合合信息 [3][34] - AI算力方面，推荐海光信息、龙芯中科等，建议关注寒武纪、景嘉微等 [3][34]

Artificial Intelligence

Agent能力

多模态推理

Artificial Intelligence

OpenAI o3

OpenAI o4-mini

Artificial Intelligence

Agent能力

多模态推理

Artificial Intelligence

OpenAI o3

OpenAI o4-mini

豆包1.5深度思考模型发布：暴砍参数量，能看图思考，数学编程超DeepSeek-R1

36氪· 2025-04-17 16:54

文章核心观点火山引擎发布豆包1.5·深度思考模型，在性能、能力和应用场景上有显著提升，同时升级了相关模型，其新能力或成推理模型升级重要方向，同日还发布了其他解决方案和套件 [1][3][21] 分组1：豆包1.5·深度思考模型发布及基础情况 - 火山引擎发布豆包1.5·深度思考模型，采用MoE架构，总参数量200B，激活参数20B，在多项基准测试达或接近全球第一梯队水平 [1] - 截至2025年3月底，豆包大模型日均tokens调用量超12.7万亿，是2024年12月的3倍，是一年前的106倍，2024年火山引擎以46.4%市场份额居中国公有云大模型调用量市场第一 [3] 分组2：豆包1.5·深度思考模型能力特点 - 较小参数量和激活参数量使其训练和推理成本低，高并发场景延迟仅20毫秒 [4] - 具备“边想边搜”能力，豆包App基于此模型定向训练，如推荐露营装备时可拆解需求、规划信息并补充搜索 [4] - 具备视觉理解能力，能基于文字、图像信息思考，如给出预算内点餐推荐 [6] - 模型团队优化数据处理策略，融合可验证与创意性数据，采用创新双轨奖励机制优化算法 [7] 分组3：豆包1.5·深度思考模型测试表现 - 在AIME 2024、2025数学测试中得分与OpenAI o3 - mini - high基本打平，Beyond AIME测试有明显差距 [8] - 在GPQA Diamond测试集得分为77.3，与OpenAI o1、o3 - mini - high仅有微小差距 [10] - 在Code Forces和SWE - bench编程基准测试接近或超越DeepSeek - R1 [10] - 在ARC - AGI测试得分39.9分，大幅超过OpenAI o1和o3 - mini - high [10] - 在创意写作等非推理任务展示泛化能力，能胜任更广泛复杂场景 [10] 分组4：相关模型升级情况 - 豆包·文生图模型3.0能实现更好文字排版、实拍级图像生成和2K高清图片生成，应用于多场景，在Artificial Analysis竞技场排名全球第一梯队 [11][13][15] - 豆包·视觉理解模型新版本视觉定位能力强，支持多种定位方式，应用于多场景，视频理解能力大幅提升，结合向量搜索可对视频语义搜索 [17][20] 分组5：其他发布内容及行业趋势 - 推理模型成国内厂商角逐重要方向，豆包1.5·深度思考模型新能力或成下一轮升级重要方向 [21] - 火山引擎同日发布OS Agent解决方案、GUI Agent大模型（豆包1.5·UI - TARS）和AI云原生·ServingKit推理套件 [21]

Seek .(US:SKLTY)

通用人工智能

Artificial Intelligence

Artificial Intelligence