长期记忆推理

搜索文档
字节Seed开源长线记忆多模态Agent,像人一样能听会看
量子位· 2025-08-18 14:55
字节Seed发布M3-Agent多模态智能体框架 - 公司推出全新多模态智能体框架M3-Agent,具备实时视觉和听觉输入处理能力,并能构建和更新长期记忆[1][2] - 该框架通过强化学习训练,在多个基准测试中表现显著优于基线模型,包括Gemini-1.5-Pro和GPT-4o等商业模型[3][33] - 框架采用开源策略,同时发布了配套的长视频问答基准M3-Bench[2][16] M3-Agent技术架构 - 框架通过并行记忆过程和控制过程运作:记忆过程持续感知多模态输入并构建长期记忆,控制过程解释指令并执行任务[8][9] - 记忆系统生成两种类型记忆:事件记忆记录具体观察,语义记忆推导一般知识[11] - 记忆以实体为中心组织,通过图结构连接同一实体的多模态信息[12] - 采用强化学习实现多轮推理和迭代记忆检索,而非单轮RAG[13] M3-Bench基准特点 - 包含两个子集:M3-Bench-robot(100个机器人第一人称视频)和M3-Bench-web(920个网络视频)[26] - 设计了五种问题类型评估能力:多细节推理、多跳推理、跨模态推理、人类理解和一般知识提取[25][27] - 基准特点包括长时长真实世界视频和需要复杂推理的挑战性问题[32] 性能表现 - 在M3-Bench-robot上准确率比最强基线MA-LLM高6.3%,达到30.7%[33][34] - 在M3-Bench-web上比最强基线Gemini-GPT4o-Hybrid高7.7%,达到48.9%[33][34] - 在VideoMME-long上比最强基线高5.3%,达到61.8%[33][34] - 在人类理解任务上比MA-LLM高4.2%,在跨模态推理上高8.5%[35] 核心技术突破 - 证实以实体为中心的多模态记忆对长视频内容推理能力提升显著[4] - 验证检索推理优于单次RAG,应视为迭代推理循环而非一次性步骤[5] - 在保持角色一致性、人类理解和多模态信息整合方面展现卓越能力[36]