大厂多模态Agent能力激战正酣
证券日报·2025-12-18 23:40
本次发布的豆包大模型1.8,其核心升级完全围绕"打造更强大的Agent大脑"展开。与单纯追求参数规模 不同,该版本在设计之初便针对多模态Agent场景进行定向优化,在复杂指令遵循、多轮交互以及操作 系统级别的实际操作(OS Agent)能力上实现了系统性增强。 技术突围 在至关重要的多模态理解层面,豆包1.8完成了视觉能力的底层升级。其单次视频理解帧数提升至1280 帧,并能以低帧率解析超长视频,在需要时调用工具对关键片段进行高精度分析。这一能力使得模型能 够处理在线教育课程、工业质检视频等复杂冗长的视觉信息,为Agent在真实场景中自主决策提供了感 知基础。 同步亮相的音视频创作模型Seedance1.5Pro,则从内容创作端展示了多模态融合的更高阶形态。该模型 采用创新的原生音视频联合生成架构,实现了毫秒级的音画同步,并能基于画面景深和角色数量,精准 匹配多人、多语言对话的口型。这解决了AI视频生成中长期存在的"张口无声"或口型错位的顽疾,将技 术从"炫技"推向"实用"。 火山引擎推出上述两个模型,标志着大模型行业已从单纯的参数竞赛,全面进入了以多模态Agent为核 心的产业落地新阶段。赛智产业研究院人工 ...