UniVid
搜索文档
告别「偏科」,UniVid实现视频理解与生成一体化
具身智能之心· 2025-10-22 14:02
更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 在视频生成与理解的赛道上,常常见到分头发力的模型:有的专注做视频生成,有的专注做视频理解(如问答、分类、检索等)。而最近, 一个开源项目 UniVid,提出了一个「融合」方向:把理解 + 生成融为一体 —— 他们希望用一个统一的模型,兼顾「看懂视频」+「生成视频」的能力。 编辑丨 机器之心 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 这就像把「看图识物」和「画图创作」两件事,交给同一个大脑去做:理解一段文字 + 理解已有视频内容 → 再「画」出新的、连贯的视频 —— 这在技术上挑战 极大。 UniVid 想解决什么问题? UniVid 尝试把视频「理解」与「生成」融合为一体,构建出一个 真正通用的统一视频模型(Unified Video Model), 一个既能「理解」又能「生成」的视频多模 态模型。 核心创新 1.统一结构:Adapter-based Unified Architecture 论文标题:UniVid: The Open-Sourc ...
告别「偏科」,UniVid实现视频理解与生成一体化
机器之心· 2025-10-21 08:15
核心观点 - 开源项目UniVid提出了一个统一模型,旨在将视频理解与视频生成能力融为一体,构建真正通用的统一视频模型 [2][5] 技术方案与创新 - 采用基于适配器(Adapter)的统一架构,在已有多模态大语言模型中插入轻量模块,使其具备视频生成能力,从而共享大部分参数,显著降低训练开销与算力成本 [7][9][13] - 提出模态温度对齐机制(Temperature Modality Alignment),在跨模态注意力层中引入温度系数,动态调节文本与视觉特征的注意力权重,早期加强文本语义引导,后期让视觉特征主导细节优化,有效减少提示偏移 [10][11] - 提出金字塔反射机制(Pyramid Reflection),在视频理解任务中结合Actor-Evaluator-Reflector循环结构,动态选择关键帧并在不同时间尺度上反射信息,以最少的帧实现准确推理,高效捕捉长时域依赖 [12][15][20] 性能表现:视频生成 - 在VBench-Long综合评测中,UniVid以85.27的总分超越所有主流视频生成模型,刷新记录 [16][18] - 在关键维度上表现卓越:时序一致性达99.88,运动平滑度达99.25,语义一致性达80.58,影像质量达73.03,均领先于同级模型 [17][22] - 在语义保真度的细粒度指标上,多对象一致性达77.45,动作一致性达94.20,空间一致性达92.10,场景一致性达80.70 [17] 性能表现:视频理解 - 在视频问答(Video QA)任务中,UniVid在MSVD-QA数据集上准确率达80.1,在ActivityNet-QA数据集上准确率达58.8,均创造新纪录 [24][25] - 在更复杂的长时序视频上展现出卓越的时序推理与语义理解能力 [24] 应用场景 - 视频创作与生成:可用于影视、广告、短视频等内容生产,根据文字脚本或图像提示自动生成连贯且符合语义逻辑的视频 [29] - 视频理解与分析:适用于体育赛事、监控画面、教学视频等场景,能识别动作、人物、事件逻辑并生成精准摘要或问答结果 [30] - 机器人与具身智能:在机器人导航、自动驾驶等系统中,可理解摄像头输入并生成未来场景预测,辅助智能体进行规划与决策 [31][34] - 开源生态与科研价值:代码开源,为研究者和开发者提供了通用底座,可自由使用、复现和二次开发,有助于降低产业界构建视频系统的成本 [35]