流式推理 - 财报，业绩电话会，研报，新闻

流式推理

搜索文档

量子位· 2026-03-18 09:37

当前大型视觉语言模型在实时视频分析中的局限性 - 主流VLM视频推理系统采用“完整视频→统一编码→开始推理→输出答案”的逻辑，这在离线任务中可行，但在实时流式视频中会导致两个主要问题：延迟不可控，视频越长，首字输出时间越慢，交互体验差[7][8]；证据错配，推理发生在“很久以后”，早期线索被长序列淹没，容易导致推理漂移或幻觉[9] - 为提升实时性，一些方法采用“帧文交错”的流式推理范式，即“看一会，说一会”，但这本质仍是串行处理，算力利用率低[9]；当面对需要多步推理的复杂任务时，此范式问题加剧，因为引入Chain-of-Thought会显著拉长推理时间，模型在长时间思考时会阻塞生成通道，导致新的视频帧无法及时处理，造成推理过时或思路被打断[3][12][13] - 需要复杂多步推理的实时视频任务包括：因果事件推断、行为意图理解、长时序事件归纳和复杂交互分析等[16] TaYS解决方案：从串行到并行的流式推理范式 - 宁波东方理工大学沈晓宇团队的研究提出TaYS，核心结论是：要让VLM真正具备实时视频推理能力，必须从“帧文交错”切换到“并行”处理[4] - 该方案包含三大关键技术：流式注意力掩码，确保推理token只能看见已到达的视频帧，防止“偷看未来”，解决了流式场景下输入动态到达的问题[18][19]；解耦式位置编码，将视频帧的物理时间轴与推理的逻辑生成轴分开，让视觉token和推理token各走各的位置索引，避免跨模态索引冲突，使时序推理更稳定[20][21]；双KV-Cache机制，将缓存分为视觉KV-Cache和推理KV-Cache两套，使视觉编码（生产者）与LLM推理（消费者）能够真正并行运行，从而显著降低首字生成时间和整体延迟[22][23] TaYS方案的性能表现与实验验证 - 在Qwen2.5-VL等主流模型上的实验表明，TaYS在准确性上整体优于批处理基线和朴素的交错流式基线，尤其在事件动态、因果推断、主题理解等视频思维链任务上表现更佳[25] - 在延迟方面，TaYS大幅降低了首字生成时间，并且端到端的延迟更低、更稳定[26] - 消融实验验证了各组件的关键作用：去掉双KV-Cache会导致延迟明显反弹，证明并行是关键；去掉解耦位置编码则会使时序理解更易错位[27] - 实验数据量化对比显示，在不同帧率下，TaYS的首字生成时间极低，而批处理方法的TTFT高达10.36秒以上，交错流式方法的延迟则随帧率升高而增加；在准确性上，TaYS在多个任务上取得了优于或可比拟其他方法的表现[28] 技术突破的应用前景与行业影响 - TaYS将推动VLM从“离线分析”走向“在线智能”，开启更真实的应用形态[29] - 具体应用场景包括：机器人/具身智能，可实现边看动作演示边给出下一步指令，消除交互“卡顿”[29]；安防监控，从事后检索转向事中预警，能在异常出现时及时推理更新[30]；直播/教育，支持实时总结、答疑和解释画面内容，让AI真正参与互动[31] - 该技术代表了一次范式切换，Streaming reasoning可能成为下一代多模态系统的默认形态[31]