端到端的时空定位能力
搜索文档
字节视频模型超越Gemini 3 Pro!理解能力爆表,小时级素材也能直出剪辑方案
量子位· 2025-12-01 17:26
字节跳动发布新一代视频理解模型Vidi2 - 核心观点:字节跳动发布的新视频理解模型Vidi2,在多项关键能力上超越了GPT-5和Gemini 3 Pro,特别是在长视频的时空定位与理解方面实现了显著突破,并展示了从理解到视频剪辑生成的端到端应用潜力 [1][12] 模型核心能力与性能表现 - **高级视频理解与定位**:Vidi2能够精准定位视频中的特定内容,不仅能准确卡准时间段,还能在画面上实时圈出目标物体,解决了长视频中寻找关键细节的难题 [10][11] - **性能优势显著**:在衡量时空对齐精度的关键指标vIoU-Int.上,Vidi2达到60.3%,几乎是GPT-5(33.6%)的两倍,远超Gemini 3 Pro Preview(16.6%)[12] - **卓越的长视频处理能力**:模型在处理超长视频时表现出极高的稳定性,当视频时长超过一小时,Vidi2依然能保持38.7%的检索精度 [13] 创新性的视频剪辑生成功能 - **自动化视频剪辑**:Vidi2能够根据数小时的原始素材和一个创意提示,自动生成一份详细的JSON剪辑指令清单,涵盖剪辑位置、台词、字幕、配乐等内容,用户可据此直接渲染导出有剧情、有配乐、有特效的完整视频 [2][6][7] - **构思剧本能力**:模型能像剪辑师一样处理素材,根据创意方向自行构思剧本,并生成精确到秒的镜头截取、播放速度、字幕样式等详细方案 [6] 核心技术架构与突破 - **端到端时空定位**:Vidi2的核心技术突破在于实现了端到端的时空定位能力,能够在统一输出中精准锁定目标事件的时间片段并同步生成空间边界框轨迹,解决了复杂对象的持续追踪难题 [16][17] - **自适应Token压缩策略**:针对视频时长从十秒到三十分钟不等的跨度,模型采用重新设计的自适应Token压缩策略,根据视频总时长动态调节信息密度,以平衡处理效率与特征保留 [18] - **分解注意力机制**:模型以120亿参数的底座为基础,采用了分解注意力机制,将传统Transformer的全注意力运算拆解为视觉内部对角注意力、文本自注意力及跨模态注意力三个独立部分,将多模态Token的计算复杂度从平方级降低为线性级,使其能以有限显存处理长达一小时的视频流 [19][20] 数据合成与训练策略 - **独特的数据合成路径**:为解决时空定位数据稀缺的难题,研发团队利用现有图像级空间定位数据,通过滑动窗口算法在静态图像上模拟摄像机运动轨迹,自动生成随时间连续变化的边界框序列,将静态空间定位扩展为动态时间对齐 [23] - **混合数据训练**:训练流程引入了大量高精度人工标注的真实世界视频数据,以修正合成数据可能带来的分布偏差并提升定位精度 [24] - **时间感知多模态对齐策略**:在最终训练阶段,采用了分阶段、双向强化的训练机制,先通过双向预测任务训练模型对时间边界的敏感度,后融入大量通用视频问答数据以强化跨模态语义关联 [25][26] 行业竞争与数据优势 - **数据是核心竞争力**:分析指出,谷歌Gemini和Veo 3的成功得益于其拥有的YouTube视频数据,而字节跳动手握大量短视频,同样拥有自己的数据优势 [26][27] - **行业趋势**:更多的数据意味着更强大的模型,AI竞争的下一场关键将在于谁能拥有更多更好的数据 [29]