统一视觉多模态与多任务!快手可灵与港科大团队发布视频生成模型,加速真实世界理解
它通过统一训练多种视觉模态 (如深度图、光流、骨骼、分割掩码等) ,让模型更懂物理世界规律,生成的视频更真实、更可控。 不仅模型生成质量更高,它还实现了 零样本泛化 ,对于从未见过的物体或场景,也能生成合理结果。 下面是更多详细内容。 允中 整理自 凹非寺 量子位 | 公众号 QbitAI 不仅能"听懂"物体的颜色纹理,还能"理解"深度图、人体姿态、运动轨迹…… 统一多模态多任务的视频生成模型来了。 来自港科大、港中文、清华大学和快手可灵的研究团队,最近提出了一个全新视觉框架—— UnityVideo 。 从文本大模型到视觉大模型 当回顾大语言模型 (LLMs) 的发展历程时,会发现一个有趣的现象: GPT、Claude等模型之所以拥有强大的泛化和推理能力,很大程度上得益于它们统一训练了多种文本子模态——自然语言、代码、数学表达 式等。 这种多模态统一训练使模型能够在不同领域之间进行知识迁移,从而涌现出惊人的推理能力。 那么,视觉领域是否也存在同样的机会? 现有的视频生成模型虽然在合成质量上取得了令人瞩目的进步,但大多数模型仍然局限于单一的RGB视频学习——就像只用纯文本训练语言 模型一样,这限制了模型对物理 ...