Workflow
世界模型
icon
搜索文档
「世界理解」维度看AI视频生成:Veo3和Sora2水平如何?新基准来了
量子位· 2025-10-27 16:26
评测框架概述 - 提出名为VideoVerse的新评测框架,旨在系统评估文生视频模型在事件因果、物理规律与常识理解等“世界模型”核心能力上的表现[1] - 框架设计包含动态和静态两大视角,共十个评测维度,涵盖事件顺序与因果、力学、交互、材料特性、镜头控制、自然约束、常识、属性正确性、二维布局和三维深度[3] - 采用QA(二元问题)与LCS(最长公共子序列)的混合评分机制,综合评估模型在各维度上的表现[4][5] 评测流程构建 - Prompt构建采用多阶段流程,首先从日常生活、科学实验和科幻三大领域采样原始语料,以确保覆盖真实、受控和超现实场景[8][9] - 使用GPT-4o等大型语言模型自动从视频或文本中抽取事件序列与潜在因果链,将自然语言描述转换为结构化的事件因果链[10][11] - 由具备本科及以上学历的独立人工注释者对自动抽取的prompt进行语义增补,并为其选择适用的评测维度,结合自动化与人工知识保障标注质量[12][13][14] - 基于每条prompt的选定维度,自动或人工生成对应的二元检测问题,用于后续的视觉语言模型评测,并屏蔽原始prompt以降低文本幻觉风险[15] 评测方法与创新 - 评估分为三步:使用VLM提取生成视频的事件序列并通过LCS与真实序列比对评分;各维度下的二元问题独立询问VLM并计分;综合LCS得分与各维度答对问题数之和得出总体得分[16][17][18] - 创新性地引入“隐含语义”评测概念,不仅评估模型对prompt中显式描述内容的理解,还评估其对未明说但合理存在的语义前提的遵循能力,例如评估鸡蛋掉落地面后是否破碎、液体是否流动等隐含物理后果[19][20][21][22][23][24][25][26] 主要评测结果 - 评测结果显示,开源模型在基础维度(如属性、2D/3D布局)上与闭源模型表现接近,但在世界模型级别的能力(如自然约束、常识、事件因果)上与闭源模型存在明显差距[28] - 即便是当前最强的闭源模型Sora2,在“隐藏语义跟随”以及部分物理和材料推断任务上仍存在显著缺陷[29] - 具体模型表现方面,闭源模型如Veo-3和Sora2+在总体得分上领先,例如Veo-3总体得分为1292(总分1608),Sora2+为1299;而开源模型中Wan2.2-A14B总体得分1085,表现较好[30] - 案例分析发现,部分模型能生成正确的描述性内容,但在事件连贯性和常识理解方面表现不佳;还存在明显的反常识错误,例如生成的剃须动作中胡须未被刮掉,或干冰在室温下未呈现升华现象[31][33][34][36][37] 行业影响与未来方向 - VideoVerse框架的推出旨在推动文生视频模型行业从追求“生成逼真画面”向“理解并模拟世界”的根本性转变[40] - 团队已开源相关数据、评测代码并设立排行榜,以促进更多研究者基于该框架开发具备更强世界模型能力的新方法[41]
特斯拉世界模拟器亮相ICCV,VP亲自解密端到端自动驾驶技术路线
36氪· 2025-10-27 16:11
技术发布与核心观点 - 特斯拉在计算机视觉顶会ICCV上展示了其世界模拟器 该模拟器能够生成逼真的驾驶场景视频 [1] - 特斯拉自动驾驶副总裁Ashok Elluswamy首次揭秘了公司的自动驾驶技术路线图 并明确表示端到端AI是智能驾驶的未来 [1][5] 世界模拟器功能与应用 - 世界模拟器可为自动驾驶任务生成新的挑战场景 例如模拟右侧车辆突然连并两条线闯入预设路径 [2] - 生成的场景视频不仅用于自动驾驶模型的训练 也可作为电子游戏供人类体验 [2] - 该模拟器技术同样适用于其他具身智能场景 如特斯拉的擎天柱机器人 [4] 端到端自动驾驶技术优势 - 特斯拉采用端到端神经网络实现自动驾驶 该网络利用来自多个摄像头、运动信号、音频及地图等数据 直接生成车辆控制指令 [8] - 端到端方法相比模块化方法的主要优势包括:更易于从数据中学习人类价值观、通过梯度整体优化网络、易于扩展处理长尾问题、具有确定性延迟的同质计算 [8] - 该方法能处理复杂权衡 例如在视野开阔且对向车道无车时 决策借用对向车道绕过积水 这用传统编程逻辑难以表达 [8][10] 端到端自动驾驶的挑战与解决方案 - 端到端自动驾驶面临评估困难 特斯拉的世界模拟器正是针对此难题 它使用海量数据集训练 能根据当前状态和行动合成未来状态 用于闭环性能评估和大规模强化学习 [11] - 系统面临"维数灾难" 输入信息量巨大 例如7个摄像头×36FPS×5百万像素×30秒画面等数据 大约会产生20亿输入Token 而神经网络需将其精简为2个输出Token(转向和加速) [13] - 为解决维数灾难 特斯拉通过庞大车队每天收集相当于500年驾驶总和的数据 并使用复杂数据引擎筛选高质量样本 以提升模型泛化能力 [13] - 针对可解释性和安全性调试困难的问题 模型可以生成可解释的中间Token用作推理Token [15] 技术实现细节 - 特斯拉的生成式高斯泼溅技术具有出色泛化能力 无需初始化即可建模动态物体 并可与其他模型联合训练 [18] - 该技术中所有的高斯函数均基于量产车配置的摄像头生成 [20] - 推理过程可通过自然语言和视频背景进行 该推理模型的一个小版本已在FSD v14.x版本中运行 [21] 行业技术路线对比 - 尽管端到端被视为未来 但业界在具体算法路线上存在VLA和世界模型之争 [24] - 华为和蔚来是世界模型路线的代表 而元戎启行和理想则选择VLA路线 也有观点认为应结合两者 [24] - VLA路线的优势在于可利用互联网海量数据积累常识 并借助语言能力进行长时序推理 有尖锐观点认为不使用VLA是因为算力不足 [24] - 世界模型路线支持者则认为其更接近问题本质 例如华为车BU CEO靳玉志认为VLA路径看似取巧并不能真正实现自动驾驶 [24] - 特斯拉的方案备受关注 因其在自动驾驶发展历程中的技术选择具有风向标意义 [24]
美团LongCat-Video正式发布并开源 视频推理速度提升至10.1倍
证券日报网· 2025-10-27 16:06
模型发布与战略意义 - 公司发布并开源LongCat-Video视频生成模型,在文生视频和图生视频基础任务上达到开源最先进水平 [1] - 模型通过原生视频续写任务预训练,实现分钟级长视频连贯生成,保障跨帧时序一致性与物理运动合理性 [1] - 视频生成模型被视为构建“世界模型”的关键路径,是探索“世界模型”的第一步,未来将融入公司自动驾驶、具身智能等深度交互业务场景 [1] 核心技术特点 - 模型基于Diffusion Transformer架构,通过“条件帧数量”实现任务区分,原生支持文生视频、图生视频和视频续写三大核心任务,形成完整任务闭环 [2] - 依托视频续写预训练,模型可稳定输出5分钟级别长视频且无质量损失,从根源规避色彩漂移、画质降解、动作断裂等行业痛点 [2] - 结合块稀疏注意力与条件token缓存机制,大幅降低长视频推理冗余,即便处理93帧及以上长序列也能兼顾效率与生成质量稳定 [2] - 通过二阶段粗到精生成、块稀疏注意力和模型蒸馏三重优化,视频推理速度提升至10.1倍,实现效率与质量的最优平衡 [2] 模型性能评估 - 136亿参数的视频生成基座模型在文生视频和图生视频两大核心任务中,综合性能均达到当前开源领域最先进水平 [3] - 在文本对齐度、运动连贯性等关键指标上展现显著优势,性能通过文本-视频对齐、视觉质量、运动质量、整体质量四大维度评估 [3] - 在VBench等公开基准测试中,LongCat-Video在参评模型中整体表现优异 [3]
马斯克「世界模拟器」首曝,1天蒸馏人类500年驾驶经验,擎天柱同脑进化
36氪· 2025-10-27 15:34
核心技术:世界模拟器 - 公司发布由神经网络驱动的“世界模拟器”,能够生成逼真的虚拟驾驶环境用于测试和训练[1] - 该模拟器可基于初始视频片段,合成多视角、连续长达6分钟的驾驶画面,帧率为24帧/秒[2] - 模拟器能处理长尾场景,如行人横穿马路和车辆加塞,并在虚拟世界中以对抗性方式进行反复试炼[2] 技术架构:端到端神经网络 - 公司采用“端到端”神经网络方案,直接处理来自多个摄像头、车辆运动学信号、音频、地图等原始数据,并输出方向盘和油门/刹车的控制指令[4][5][7] - 该方案相比传统的模块化(感知-预测-规划)方法具有根本优势,包括能隐式学习人类驾驶价值观、消除模块间信息损失、具备更好的可扩展性以及符合Scaling Law规律[9][13][16][18][19] - 神经网络需处理高达20亿个输入信息单元(token),并将其压缩为2个输出指令,公司通过日均相当于人类500年驾驶经验的海量数据来训练模型,以学习正确的因果关系而非偶然相关性[22][23][25] 系统能力与可解释性 - 系统具备可解释性,能输出被称为“中间token”的思考过程,并利用“生成式高斯泼溅”技术基于摄像头输入生成新视角的3D场景,全程运行时间约220毫秒[33][34][38][40] - 人工智能还能用自然语言解释其决策,例如在复杂路况下(如雨天路滑)能对“二阶效应”进行预判,提前减速[29][30][40] 应用扩展与战略布局 - 公司将其为自动驾驶汽车开发的同一套AI大脑和世界模拟器技术,无缝迁移至人形机器人“擎天柱”项目,用于模拟其在物理世界中的导航与交互[2][3][47] - 公司的战略野心超越了造车,旨在打造一套可解决通用物理世界交互问题的底层AI引擎,汽车被视为收集数据和验证技术的首个应用载体[47]
美团LongCat-Video视频生成模型发布:可输出5分钟长视频
凤凰网· 2025-10-27 15:32
公司技术发布 - 美团LongCat团队正式发布LongCat-Video视频生成模型 [1] - 模型基于Diffusion Transformer架构,支持文生视频、图生视频及视频续写三类核心任务 [1] - 模型宣称在开源模型中达到先进水平 [1] 模型技术规格 - 模型可生成720p分辨率、30帧率的高清视频 [1] - 模型能够原生生成长达5分钟的连贯视频内容 [1] - 模型通过视频续写预训练、块稀疏注意力等机制解决长视频生成中的画面断裂、质量下降问题 [1] - 模型参数量为136亿 [1] 模型性能与效率 - 模型采用二阶段生成、块稀疏注意力及模型蒸馏等技术,推理速度提升超过10倍 [1] - 模型在VBench等公开测试中表现出较强的文本对齐与运动连贯性 [1] 技术应用与战略意义 - 模型作为构建"世界模型"的技术尝试,未来或可应用于自动驾驶模拟、具身智能等长时序建模场景 [1] - 该模型的发布标志着美团在视频生成与物理世界模拟领域迈出重要一步 [1]
美团视频生成模型来了!一出手就是开源SOTA
量子位· 2025-10-27 13:37
核心观点 - 美团开源其最新视频生成模型LongCat-Video,参数规模为13.6B,支持文生视频、图生视频及视频延长,生成视频时长可达数分钟,整体质量在开源模型中达到SOTA水平 [1][8] - 该模型在物理世界建模和理解能力上表现突出,部分核心维度可与谷歌闭源模型Veo3媲美,并采用允许商用的MIT协议 [8][9][64] - 此次发布是美团在AI领域系列布局的最新动作,标志着“跨界”AI成为公司新常态 [65][68][70] 模型功能与性能 - **文生视频**:可生成720p、30fps高清视频,语义理解与视觉呈现能力达开源SOTA级别,尤其在足球、体操等复杂动态场景中表现出对真实世界的高度理解能力 [15][16][18] - **图生视频**:能够保留参考图像的主体属性、背景关系与整体风格,在一致性挑战中表现稳定,例如生成机器人工作vlog时桌面环境未发生异变 [18][22][23][24] - **视频延长**:为核心差异化能力,可基于多帧条件帧续接视频内容,稳定输出长达5分钟的视频而不会出现颜色漂移或质量下降,支持像制作连续剧一样生成完整情节 [32][33][38][48] - **性能基准**:在内部测试中,文生视频整体质量超越PixVerse-V5和Wan2.2-T2V-A14B;在VBench 2.0公开测试总得分位列第三(62.11%),在常识性维度(运动合理性、物理定律遵循)上处于领先优势 [62][63][64] 技术创新与架构 - **统一架构设计**:以Diffusion Transformer(DiT)为框架,集成文生视频、图生视频和视频续生三大任务于单一13.6B参数模型中,通过条件帧数量区分任务 [41][42][44][47] - **长视频生成能力**:通过直接在视频续生任务上预训练,从源头解决累积误差问题,并支持交互式生成,允许用户为不同片段设置独立指令 [45][46][48][49] - **效率优化**:采用从粗到精的生成范式,结合块稀疏注意力将计算量降至原生10%以下,并通过CFG蒸馏和一致性模型蒸馏将采样步数从50步缩减至16步,效率提升超10倍 [51][52][53] - **训练优化**:使用组相对策略优化(GRPO)算法,并采用视觉质量(VQ)、运动质量(MQ)和文本-视频对齐度(TA)三类专用奖励模型进行多奖励加权融合训练 [54][56][57][58][59] 公司AI战略布局 - LongCat-Video是美团龙猫大模型系列的最新成员,此前公司已陆续开源了总参数560B的基础模型LongCat-Flash-Chat、具备深度思考能力的LongCat-Flash-Thinking以及语音模型LongCat-Audio-Codec [65][66][68][70] - 公司还专为外卖送餐、餐厅点餐等复杂现实生活场景打造了Agent评测基准VitaBench,系统性衡量Agent能力 [70] - 一系列动作表明,AI正成为公司核心战略的重要组成部分,跨界布局已成常态 [65][70]
特斯拉世界模拟器亮相ICCV!VP亲自解密端到端自动驾驶技术路线
量子位· 2025-10-27 13:37
世界模拟器技术 - 特斯拉在ICCV顶会上推出世界模拟器 可生成看似真实的驾驶场景用于自动驾驶测试 [1][4] - 模拟器功能包括生成新的挑战场景 如右侧车辆突然连并两条线闯入预设路径 以及让AI在已有场景中执行避障任务 [5][7] - 生成的场景视频不仅用于自动驾驶模型训练 还可作为电子游戏供人类体验 [9] 端到端自动驾驶技术路线 - 特斯拉自动驾驶副总裁明确表示端到端AI是自动驾驶的未来 该方法利用多摄像头图像、运动信号、音频、地图等数据直接生成控制指令 [12][13][17] - 与模块化方法相比 端到端优势包括更易从数据中学习人类价值观、通过梯度整体优化网络、可扩展性更强以及具有确定性延迟 [17][18] - 端到端架构面临评估难题 特斯拉世界模拟器通过合成未来状态来连接策略模型 以闭环方式评估性能并支持强化学习 [22][23][24] 技术挑战与解决方案 - 端到端系统面临维数灾难 输入信息可达20亿Token 需精简为2个控制动作 [26][27][28] - 公司通过庞大车队每日收集相当于500年驾驶总和的数据 并利用数据引擎筛选高质量样本以提升模型泛化能力 [29][30] - 针对可解释性问题 模型可生成中间Token用作推理Token 生成式高斯泼溅技术可建模动态物体并与端到端模型联合训练 [32][35] 行业技术路线分歧 - 业界存在VLA和世界模型两条端到端自动驾驶技术路线分歧 华为、蔚来代表世界模型路线 元戎启行、理想选择VLA路线 [38][39] - VLA路线支持者认为该范式可利用互联网海量数据积累常识 并通过语言能力进行长时序推理 有观点认为不用VLA是因算力不足 [39][40] - 世界模型支持者如华为车BU CEO认为VLA路径看似取巧不能真正实现自动驾驶 特斯拉方案因历史选择正确而受关注 [41][43][44]
美团LongCat团队发布并开源LongCat-Video视频生成模型
新浪财经· 2025-10-27 13:24
公司技术发布 - 美团LongCat团队于10月27日发布并开源视频生成模型LongCat-Video [1] - 该模型在文生视频和图生视频基础任务上达到开源SOTA水平 [1] - 模型通过原生视频续写任务预训练,实现分钟级长视频的连贯生成 [1] - 模型优势在于保障跨帧时序一致性与物理运动合理性,在长视频生成领域具备显著优势 [1] 公司战略方向 - 发布视频生成模型是公司探索“世界模型”的第一步 [1] - 未来LongCat模型将凭借精准重构真实世界运行状态的能力,融入自动驾驶、具身智能等深度交互业务场景 [1] - 该技术旨在成为公司更好连接“比特世界”和“原子世界”的技术基础 [1]
美团开源LongCat-Video支持高效长视频生成,迈出“世界模型”探索第一步
经济观察网· 2025-10-27 12:01
公司技术发布 - 美团LongCat团队于10月27日发布并开源LongCat-Video视频生成模型 [2] - 该模型是一个基于Diffusion Transformer架构的多功能统一视频生成基座,原生支持文生视频、图生视频和视频续写三大核心任务 [5] - 模型依托视频续写任务预训练,可稳定输出5分钟级别的长视频且无质量损失,保障跨帧时序一致性与物理运动合理性 [2][5] 技术性能与优势 - 模型在文生视频、图生视频基础任务上的综合性能达到开源领域最先进水平 [2][9] - 通过结合块稀疏注意力与条件token缓存机制,模型在处理93帧及以上长序列时能兼顾效率与生成质量稳定 [5] - 针对高分辨率、高帧率视频生成,模型通过三重优化将视频推理速度提升至10.1倍 [6] - 该136亿参数的模型在文本对齐度、运动连贯性等关键指标上展现显著优势 [9] 战略定位与未来应用 - 此次发布的视频生成模型被视为公司探索“世界模型”的第一步 [2] - “世界模型”被业界视作通往下一代智能的核心引擎,旨在让AI理解、预测和重构真实世界 [2] - 未来,该模型计划融入公司持续投入的自动驾驶、具身智能等深度交互业务场景,以更好地连接数字世界与物理世界 [2]
视频推理速度提升至10.1倍!美团 LongCat-Video正式发布并开源
新浪科技· 2025-10-27 10:36
技术发布与成就 - 美团LongCat团队发布并开源了LongCat-Video视频生成模型 [1] - 该模型在文生视频和图生视频基础任务上达到开源SOTA(最先进水平) [1] - 通过原生视频续写任务预训练,实现分钟级长视频连贯生成,保障跨帧时序一致性与物理运动合理性 [1] 技术战略与行业意义 - 视频生成模型被视为构建“世界模型”的关键路径,通过压缩几何、语义、物理等多种形式知识,使人工智能能在数字空间模拟真实世界运行 [1] - 此次发布的模型是公司探索“世界模型”的第一步 [1] - “世界模型”因让人工智能理解、预测和重构真实世界,被业界视作通往下一代智能的核心引擎 [1] 未来应用与业务整合 - LongCat模型未来将融入公司持续投入的自动驾驶、具身智能等深度交互业务场景 [1] - 该技术旨在成为公司更好连接“比特世界”和“原子世界”的技术基础 [1]