StreamingClaw
搜索文档
具身龙虾,上车理想
量子位· 2026-04-05 12:41
StreamingClaw框架的核心创新 - 公司发布了全新的流式视频理解与具身智能统一的Agent框架——StreamingClaw,该框架原生支持实时的多模态流式交互,将视觉输入视为实时流数据进行即时推理,而非离线文件 [1][2] - 该框架的核心硬实力在于实现了极低延迟的“边看、边记、边行动”,强调在毫秒级完成“感知—决策—执行”的闭环,解决了传统视频Agent在实时感知时延迟较高的问题 [7][9] - StreamingClaw通过“增量计算”逻辑改写传统处理方式,将环境细微变化视为增量信号进行推理更新,实现了流式推理,避免了因处理完整视频文件导致的计算量爆炸和长时程信息遗忘问题 [13][14][15] 系统架构与核心组件 - StreamingClaw是一个高度协同的多代理架构,通过标准化的“感知(看)—决策(想)—执行(做)”流水线,打破不同硬件之间的壁垒,形成完整的交互闭环 [17][21] - 核心大脑由主代理StreamingReasoning和从代理StreamingMemory与StreamingProactivity构成,分别负责实时感知与规划、提供长效记忆支撑以及主动交互决策 [19] - 所有多模态流式输入会通过时间戳对齐与共享流式缓存进行标准化处理,确保AI拥有统一的“时间尺度” [19] - 代理生成的决策指令会直接驱动工具箱与技能库,执行结果即时反馈,从而让系统不仅能听懂指令,更能通过自主规划与工具调用解决现实问题 [20][22] 流式推理模块详解 - StreamingReasoning模块针对连续输入输出的流视频理解场景,核心目标是在极低延迟约束下实现实时感知、理解与推理 [23][24] - 系统将输入视频流拆分为细粒度片段,通过动态滑动窗口控制上下文范围,并结合经过剪枝优化的流式KV-Cache机制进行高效的增量解码,避免延迟堆积 [26] - 系统引入了自规划调度能力,能够动态解析用户指令并自主规划任务路径,在复杂任务时调用记忆或触发主动交互,在常规场景下保持低延迟的流式推理 [27] 流式存储与记忆机制 - StreamingMemory存储真正的多模态向量,通过层级记忆演化机制应对复杂的流视频理解任务 [28] - 记忆机制以视觉为核心,将多模态信息组织为可持续增长的增量式记忆节点,并进一步从碎片演化为更高层级的“行动”和“事件”,形成可用于决策的结构化经验 [30][31] - 系统通过命令驱动的并行时间遍历实现高效检索,在长时序信息中快速定位关键内容,并通过统一接口设计实现跨代理记忆的共享与差异化管理 [32][33] 主动交互与预测能力 - StreamingProactivity模块面向未来事件预测、推理与主动交互设计,其目标可由用户预设或在流式过程中持续演化 [34] - 当请求被识别为主动交互时,主代理会将其转化为持续在线的监控任务,一旦满足触发条件,系统即刻生成通知或解释性响应,形成“感知—推理—触发—反馈”的闭环 [35][36] - 该机制覆盖时间感知交互和事件定位交互两类场景,前者强调对状态演化的持续跟踪,后者聚焦关键事件的精确识别 [38] - 实现上分为免训练适配和训练适配两种路径,前者无需额外训练,后者将状态变化建模为视觉语言信号,在复杂场景下具备更高精度和更强泛化能力 [39][41][42][43] 工具集成与执行闭环 - StreamingClaw提供了高效工具与技能接口,以完成“感知—决策—执行”闭环的最后一个环节,真正让AI影响物理世界 [45] - 除了标准工具组合,还引入了专为视频理解和流式交互定制的专业工具,例如Video Cut工具可以在关键片段中精准裁剪时间戳,将内容送入大型多模态模型进行“显微级分析” [46][47] 当前局限与未来展望 - 当前系统以“视觉+文本”为核心输入范式,对音频输入、精细时序对齐及跨模态联合推理的支持仍有限 [49] - 未来,系统将演进为统一的全模态代理框架,打通视频、图像、音频与文本的输入输出,实现真正的感知-执行闭环 [50] - 未来还将强化长时程建模、空间理解与跨模态对齐能力,并持续优化低延迟部署与记忆、工具调用机制,以支撑更真实的具身交互 [50]