Streamo - 财报，业绩电话会，研报，新闻

Streamo

搜索文档

CVPR2026 | Streamo：让大模型变成实时流式交互助手

机器之心· 2026-03-19 14:49

核心观点 - 香港浸会大学与腾讯优图实验室提出的Streamo框架，通过将“何时回答”转化为模型预测的token，实现了端到端的训练，成功将离线视频大模型转化为能够处理无界视频流的实时交互助手，解决了当前视频大模型在真实流式场景中的关键瓶颈[2][7][19] 问题分析：离线视频模型的局限性 - 当前先进的视频大模型（如Qwen2-VL、LLaVA-Video）是基于完整视频片段的离线场景设计，无法满足“边看边说”的实时流式交互需求[4] - 真实流式场景中，视频流是无界的，模型无法“看到未来”，且必须在关键事件发生的当下即时响应，同时用户指令可能随时到来[4] - 不同应用对响应粒度的要求不一致，有的需要帧级即时叙述，有的适合事件结束后总结[4] 现有方法的缺陷 - 现有适配流式场景的方法通常拆分决策与生成模块，存在明显缺陷：轻量决策模块难以理解复杂指令和跨时间上下文，庞大决策模块则会拉高推理延迟，破坏实时性[6] - 决策与生成分离使模型难以在持续变化的输入中形成连贯、及时的响应[6] Streamo框架的核心创新 - 核心洞察是将决策与生成统一到同一个端到端框架中，让模型直接学会“什么时候该说话，以及该说什么”[7] - 关键设计是将“何时回答”转化为模型需要预测的token，将流式视频组织为多轮对话，每1秒一个turn，模型每轮预测<Silence>、<Standby>或<Response>状态[9] - 该设计将“是否响应”与“生成什么内容”统一到同一个next-token prediction过程中，决策和生成共享同一语义空间，使模型能联合建模时序线索、任务目标与语言输出[9] - 该设计无需引入独立决策头或外部控制器，直接将状态token融入标准自回归训练框架，保持了与现有监督微调范式的兼容性，训练推理更高效[10] Streamo-Instruct-465K数据集 - 为训练流式助手构建了Streamo-Instruct-465K数据集，包含约46.5万条指令样本，来源于135,875段视频，整合了ActivityNet、YouCook2、QVHighlight等多个公开数据源[12] - 数据集具有多任务、多粒度特点，同一视频可标注为不同流式任务，包括实时旁白、事件字幕、动作字幕、事件时序定位以及时变问答[13] - 所有任务统一到同一时间监督框架中，每轮标注不仅包含文本输出，还明确对应模型应处于沉默、等待或回答状态，使模型学习“何时说”[13] 实验结果 - 在OVO-Bench上，Streamo-7B (2fps)以57.86%的平均性能超越Dispider 13.83个百分点[16] - 在三大能力维度全面领先：实时感知能力达67.44%（相对Dispider的54.55%提升+12.89%），回溯追踪能力达49.18%（相对提升+13.12%），前向响应能力达56.96%（相对提升+22.24%）[16] - Streamo在1fps训练的模型可直接在2fps下评估，性能提升4.66%，展现出强大泛化能力[16] - 与广泛使用的ET-Instruct-164K相比，Streamo-Instruct在OVO-Bench上的整体性能提升了11.79%，在关键的前向主动响应任务上提升了7.1%[18] - 实验揭示直接混合离线数据（如LLaVA-Video）可能会削弱模型的在线能力，而Streamo-Instruct通过专门设计的流式标注有效避免了该问题[18] 意义与影响 - Streamo解决了当前视频大模型的关键瓶颈，提供了将静态感知模型转换为动态交互智能体的可复用技术路线[19] - 该框架及其提供的大规模流视频指令数据，将推动流视频理解的发展，对实现直播理解、智能驾驶提醒、安防巡检、运动教学等实时多模态助手具有重要意义[19]