Workflow
Streamo
icon
搜索文档
CVPR2026 | Streamo:让大模型变成实时流式交互助手
机器之心· 2026-03-19 14:49
核心观点 - 香港浸会大学与腾讯优图实验室提出的Streamo框架,通过将“何时回答”转化为模型预测的token,实现了端到端的训练,成功将离线视频大模型转化为能够处理无界视频流的实时交互助手,解决了当前视频大模型在真实流式场景中的关键瓶颈[2][7][19] 问题分析:离线视频模型的局限性 - 当前先进的视频大模型(如Qwen2-VL、LLaVA-Video)是基于完整视频片段的离线场景设计,无法满足“边看边说”的实时流式交互需求[4] - 真实流式场景中,视频流是无界的,模型无法“看到未来”,且必须在关键事件发生的当下即时响应,同时用户指令可能随时到来[4] - 不同应用对响应粒度的要求不一致,有的需要帧级即时叙述,有的适合事件结束后总结[4] 现有方法的缺陷 - 现有适配流式场景的方法通常拆分决策与生成模块,存在明显缺陷:轻量决策模块难以理解复杂指令和跨时间上下文,庞大决策模块则会拉高推理延迟,破坏实时性[6] - 决策与生成分离使模型难以在持续变化的输入中形成连贯、及时的响应[6] Streamo框架的核心创新 - 核心洞察是将决策与生成统一到同一个端到端框架中,让模型直接学会“什么时候该说话,以及该说什么”[7] - 关键设计是将“何时回答”转化为模型需要预测的token,将流式视频组织为多轮对话,每1秒一个turn,模型每轮预测<Silence>、<Standby>或<Response>状态[9] - 该设计将“是否响应”与“生成什么内容”统一到同一个next-token prediction过程中,决策和生成共享同一语义空间,使模型能联合建模时序线索、任务目标与语言输出[9] - 该设计无需引入独立决策头或外部控制器,直接将状态token融入标准自回归训练框架,保持了与现有监督微调范式的兼容性,训练推理更高效[10] Streamo-Instruct-465K数据集 - 为训练流式助手构建了Streamo-Instruct-465K数据集,包含约46.5万条指令样本,来源于135,875段视频,整合了ActivityNet、YouCook2、QVHighlight等多个公开数据源[12] - 数据集具有多任务、多粒度特点,同一视频可标注为不同流式任务,包括实时旁白、事件字幕、动作字幕、事件时序定位以及时变问答[13] - 所有任务统一到同一时间监督框架中,每轮标注不仅包含文本输出,还明确对应模型应处于沉默、等待或回答状态,使模型学习“何时说”[13] 实验结果 - 在OVO-Bench上,Streamo-7B (2fps)以57.86%的平均性能超越Dispider 13.83个百分点[16] - 在三大能力维度全面领先:实时感知能力达67.44%(相对Dispider的54.55%提升+12.89%),回溯追踪能力达49.18%(相对提升+13.12%),前向响应能力达56.96%(相对提升+22.24%)[16] - Streamo在1fps训练的模型可直接在2fps下评估,性能提升4.66%,展现出强大泛化能力[16] - 与广泛使用的ET-Instruct-164K相比,Streamo-Instruct在OVO-Bench上的整体性能提升了11.79%,在关键的前向主动响应任务上提升了7.1%[18] - 实验揭示直接混合离线数据(如LLaVA-Video)可能会削弱模型的在线能力,而Streamo-Instruct通过专门设计的流式标注有效避免了该问题[18] 意义与影响 - Streamo解决了当前视频大模型的关键瓶颈,提供了将静态感知模型转换为动态交互智能体的可复用技术路线[19] - 该框架及其提供的大规模流视频指令数据,将推动流视频理解的发展,对实现直播理解、智能驾驶提醒、安防巡检、运动教学等实时多模态助手具有重要意义[19]