AI动态跟踪系列（六）：OpenAIo3、豆包新品首发，关注原生Agent与多模态推理

报告行业投资评级 - 强于大市（维持） [1] 报告的核心观点 - 近期新模型解题思路在思维链CoT基础上更重视模型原生Agent能力和多模态推理能力，全球大模型领域竞争激烈，看好AI主题投资机会 [3][34] - 当前Agent在企业端落地进度靠前，AI应用关注OA/ERP/编程/办公等领域，Agent拉动推理端及整体算力需求，看好国产AI算力产业链 [3][34] 根据相关目录分别进行总结 OpenAI o3、o4 - mini新增图像深度思考与Agent能力，Codex CLI智能体开源推动AI编程生态开放 - 4月17日OpenAI发布o3和o4 - mini，是其迄今最智能模型，核心突破在于图像深度思考和Agent能力 [3][4] - o3是强大推理模型，在多方面推动前沿发展，在多个基准设新SOTA，困难现实任务重大错误比o1少20% [5] - o4 - mini针对快速、经济高效推理优化，在数学、编码和视觉任务表现好，非STEM任务及数据科学领域优于o3 - mini [5] - 图像推理方面，o3和o4 - mini首次在思维链中用图像思考，实现高级推理与多工具无缝结合，o3提供多模态代理体验 [9] - Agent方面，o3和o4 - mini可访问ChatGPT工具及自定义工具，能推理解决问题并快速生成答案 [10] - o3和o4 - mini性价比高于前身，预计实际使用更智能、便宜 [12] - OpenAI发布轻量级编程智能体Codex CLI，支持零配置启动，运行安全，可让用户从命令行体验多模态推理 [15] 豆包1.5·深度思考模型对标全球推理模型第一梯队，视觉理解模型实现更强视觉定位能力 - 4月17日火山引擎发布豆包1.5·深度思考模型等新品，推理模型性能达或接近全球第一梯队，增加视觉理解能力，APP可“边想边搜” [3][17] - 多模态方面，豆包·文生图模型3.0在权威榜单排全球第一梯队，新版本豆包·视觉理解模型视觉定位和视频理解能力提升 [17][28] - 企业级服务方面，发布OS Agent、GUI Agent大模型（豆包1.5·UI - TARS）和AI云原生·ServingKit推理套件 [17] - 截至2025年3月底，豆包大模型日均tokens调用量超12.7万亿，是2024年12月的3倍、发布时的106倍，2024年火山引擎公有云大模型调用量市场份额46.4%居中国第一 [18] - 豆包1.5·深度思考模型采用MoE架构，总参数200B，激活参数20B，有高并发承载能力和20毫秒极低延迟 [21] - 豆包APP基于该模型定向训练实现“边想边搜”，如推荐露营装备经3轮搜索给出细致推荐 [24] - 该模型具备视觉理解能力，可用于国外餐厅点餐、分析航拍地貌、企业项目管理等 [27] - OS Agent解决方案可让企业和开发者构建轻量级应用，复杂应用可调用豆包1.5·UI - TARS模型，该模型已上线火山方舟平台 [32] - ServingKit推理套件可助企业快速部署模型、优化推理、运维可观测，能提高KV cache命中率和TPS吞吐量，降低GPU消耗 [33] 投资建议 - AI应用方面，AI + 企服建议关注泛微网络、致远互联等；AI + 办公推荐金山办公、福昕软件等，建议关注合合信息 [3][34] - AI算力方面，推荐海光信息、龙芯中科等，建议关注寒武纪、景嘉微等 [3][34]