Workflow
流式推理
icon
搜索文档
打破视频推理「先看后想」惯性,实现真正的「边看边想」丨CVPR'26
量子位· 2026-03-18 09:37
当前大型视觉语言模型在实时视频分析中的局限性 - 主流VLM视频推理系统采用“完整视频→统一编码→开始推理→输出答案”的逻辑,这在离线任务中可行,但在实时流式视频中会导致两个主要问题:延迟不可控,视频越长,首字输出时间越慢,交互体验差[7][8];证据错配,推理发生在“很久以后”,早期线索被长序列淹没,容易导致推理漂移或幻觉[9] - 为提升实时性,一些方法采用“帧文交错”的流式推理范式,即“看一会,说一会”,但这本质仍是串行处理,算力利用率低[9];当面对需要多步推理的复杂任务时,此范式问题加剧,因为引入Chain-of-Thought会显著拉长推理时间,模型在长时间思考时会阻塞生成通道,导致新的视频帧无法及时处理,造成推理过时或思路被打断[3][12][13] - 需要复杂多步推理的实时视频任务包括:因果事件推断、行为意图理解、长时序事件归纳和复杂交互分析等[16] TaYS解决方案:从串行到并行的流式推理范式 - 宁波东方理工大学沈晓宇团队的研究提出TaYS,核心结论是:要让VLM真正具备实时视频推理能力,必须从“帧文交错”切换到“并行”处理[4] - 该方案包含三大关键技术:流式注意力掩码,确保推理token只能看见已到达的视频帧,防止“偷看未来”,解决了流式场景下输入动态到达的问题[18][19];解耦式位置编码,将视频帧的物理时间轴与推理的逻辑生成轴分开,让视觉token和推理token各走各的位置索引,避免跨模态索引冲突,使时序推理更稳定[20][21];双KV-Cache机制,将缓存分为视觉KV-Cache和推理KV-Cache两套,使视觉编码(生产者)与LLM推理(消费者)能够真正并行运行,从而显著降低首字生成时间和整体延迟[22][23] TaYS方案的性能表现与实验验证 - 在Qwen2.5-VL等主流模型上的实验表明,TaYS在准确性上整体优于批处理基线和朴素的交错流式基线,尤其在事件动态、因果推断、主题理解等视频思维链任务上表现更佳[25] - 在延迟方面,TaYS大幅降低了首字生成时间,并且端到端的延迟更低、更稳定[26] - 消融实验验证了各组件的关键作用:去掉双KV-Cache会导致延迟明显反弹,证明并行是关键;去掉解耦位置编码则会使时序理解更易错位[27] - 实验数据量化对比显示,在不同帧率下,TaYS的首字生成时间极低,而批处理方法的TTFT高达10.36秒以上,交错流式方法的延迟则随帧率升高而增加;在准确性上,TaYS在多个任务上取得了优于或可比拟其他方法的表现[28] 技术突破的应用前景与行业影响 - TaYS将推动VLM从“离线分析”走向“在线智能”,开启更真实的应用形态[29] - 具体应用场景包括:机器人/具身智能,可实现边看动作演示边给出下一步指令,消除交互“卡顿”[29];安防监控,从事后检索转向事中预警,能在异常出现时及时推理更新[30];直播/教育,支持实时总结、答疑和解释画面内容,让AI真正参与互动[31] - 该技术代表了一次范式切换,Streaming reasoning可能成为下一代多模态系统的默认形态[31]