VitaBench
搜索文档
美团视频生成模型来了!一出手就是开源SOTA
量子位· 2025-10-27 13:37
核心观点 - 美团开源其最新视频生成模型LongCat-Video,参数规模为13.6B,支持文生视频、图生视频及视频延长,生成视频时长可达数分钟,整体质量在开源模型中达到SOTA水平 [1][8] - 该模型在物理世界建模和理解能力上表现突出,部分核心维度可与谷歌闭源模型Veo3媲美,并采用允许商用的MIT协议 [8][9][64] - 此次发布是美团在AI领域系列布局的最新动作,标志着“跨界”AI成为公司新常态 [65][68][70] 模型功能与性能 - **文生视频**:可生成720p、30fps高清视频,语义理解与视觉呈现能力达开源SOTA级别,尤其在足球、体操等复杂动态场景中表现出对真实世界的高度理解能力 [15][16][18] - **图生视频**:能够保留参考图像的主体属性、背景关系与整体风格,在一致性挑战中表现稳定,例如生成机器人工作vlog时桌面环境未发生异变 [18][22][23][24] - **视频延长**:为核心差异化能力,可基于多帧条件帧续接视频内容,稳定输出长达5分钟的视频而不会出现颜色漂移或质量下降,支持像制作连续剧一样生成完整情节 [32][33][38][48] - **性能基准**:在内部测试中,文生视频整体质量超越PixVerse-V5和Wan2.2-T2V-A14B;在VBench 2.0公开测试总得分位列第三(62.11%),在常识性维度(运动合理性、物理定律遵循)上处于领先优势 [62][63][64] 技术创新与架构 - **统一架构设计**:以Diffusion Transformer(DiT)为框架,集成文生视频、图生视频和视频续生三大任务于单一13.6B参数模型中,通过条件帧数量区分任务 [41][42][44][47] - **长视频生成能力**:通过直接在视频续生任务上预训练,从源头解决累积误差问题,并支持交互式生成,允许用户为不同片段设置独立指令 [45][46][48][49] - **效率优化**:采用从粗到精的生成范式,结合块稀疏注意力将计算量降至原生10%以下,并通过CFG蒸馏和一致性模型蒸馏将采样步数从50步缩减至16步,效率提升超10倍 [51][52][53] - **训练优化**:使用组相对策略优化(GRPO)算法,并采用视觉质量(VQ)、运动质量(MQ)和文本-视频对齐度(TA)三类专用奖励模型进行多奖励加权融合训练 [54][56][57][58][59] 公司AI战略布局 - LongCat-Video是美团龙猫大模型系列的最新成员,此前公司已陆续开源了总参数560B的基础模型LongCat-Flash-Chat、具备深度思考能力的LongCat-Flash-Thinking以及语音模型LongCat-Audio-Codec [65][66][68][70] - 公司还专为外卖送餐、餐厅点餐等复杂现实生活场景打造了Agent评测基准VitaBench,系统性衡量Agent能力 [70] - 一系列动作表明,AI正成为公司核心战略的重要组成部分,跨界布局已成常态 [65][70]
AI点外卖哪家强,美团LongCat团队做了个全面评测
量子位· 2025-10-20 09:16
美团LongCat团队发布VitaBench智能体评测基准 - 美团LongCat团队发布了一个高度贴近真实生活场景、面向复杂问题的大模型智能体评测基准VitaBench [1] - 该基准以**外卖点餐、餐厅就餐、旅游出行**三大高频生活场景为载体,构建了包含**66个工具**的交互式评测环境,并设计了跨场景综合任务 [1] - 基准旨在为智能体在真实生活场景中的研发与落地提供重要基础设施,并已全面开源 [4] 研究背景与行业痛点 - 现有智能体评测基准与现实应用需求存在显著差距,主要体现在**工具生态简单化、信息密度不足、模型探索性受限、交互动态性缺失**等方面 [5][6] - 真实世界任务的复杂性源于**推理复杂性、工具复杂性、交互复杂性**三大维度的交织 [6][7] VitaBench基准构建方法论 - 基准通过**三维复杂度框架**对智能体任务进行量化拆解,建模为部分可观测马尔可夫决策过程 [9] - **推理复杂度**通过观测空间大小、部分可观测度、推理点数量衡量,单个任务可涉及**5-20个服务提供商、最多超过100个候选产品** [9][10] - **工具复杂度**通过工具图的大小与密度、工具调用链路长度与子图覆盖率衡量,基准提炼了**66个真实工具**并构建有向图 [11][17] - **交互复杂度**通过用户模拟器实现,模拟器基于真实平台数据构建多样化用户画像,并涵盖情绪表达、交互模式等行为属性 [13][18] - 基准构建采用两阶段流程:**框架设计**(工具定义、依赖构建、用户模拟)和**任务创建**(任务指令、环境数据、评估标准) [16][19][25] 基准数据规模与评估方法 - 基准共构建了**400项评测任务**,包括300项单场景任务和100项跨场景任务 [25] - 基准环境数据库包含大量真实数据,例如跨场景任务涉及**1,324个服务提供商、6,946个产品、447笔交易** [20] - 针对长轨迹评估,团队提出了**基于Rubric的滑动窗口评估器**,以克服传统状态比对方法的不足,实现了更全面、细粒度的行为覆盖 [22] - 评估器与人工标注相比,**Cohen's κ达0.828**,显著优于无Rubric或无滑动窗口的基线方法 [40][41] 主流大模型评测结果分析 - 团队评测了包括**GPT-5、Claude-4.1-Opus、Gemini-2.5-Pro、Kimi-K2、GLM-4.5、LongCat-Flash**等在内的20余款主流大模型 [26] - **跨场景任务带来极大挑战**:表现最佳的o3 (high)模型在跨场景任务上的成功率也仅为**30.0%**,远低于单场景任务的**48.3%** [28] - **模型行为高度不稳定**:尽管部分模型在跨场景任务的Pass@4(至少一次成功)指标可达**60%**,但Pass^4(四次全成功)接近**0%** [29] - **“思考型”模型显著优于“非思考型”**:启用链式推理的模型普遍提升**5–8个百分点**,且交互轮次更少 [32] 复杂性维度有效性验证 - **推理复杂性**:任务所需推理点数量与成功率呈强负相关,在线旅行与跨场景任务平均包含**9.7–10.3个推理点** [34] - **工具复杂性**:工具图的节点与边数量越多任务越难,跨场景任务涉及**66个工具、512条依赖边**,是所有任务中最复杂的 [35] - **交互复杂性**:引入真实用户模拟器后,模型性能下降**15–25个百分点**,尤其对弱模型影响更大 [36] 核心组件可靠性验证 - **用户模拟器**在信息保真度(**9.48/10**)与人格一致性(**9.34/10**)两项指标上均表现优异 [38] - **滑动窗口评估器**与人工标注的一致性高,Cohen's κ达**0.828** [40] 模型典型失败案例分析 - 模型错误主要分为三大类别:**推理相关错误(61.8%)、工具相关错误(21.1%)、交互相关错误(7.9%)** [43] - 当前模型普遍存在**忽略时空与常识推理细节、因不确定性提前放弃任务、在失败或需求模糊时重复无效操作而非调整策略**等失误模式 [45][51] 行业意义与展望 - VitaBench不仅是一个评测基准,更是一套关于“Agentic Task Complexity”的**理论框架**,首次系统量化了三大维度对智能体性能的影响 [46][47] - 该工作揭示了当前模型在真实生活场景中的能力边界,目标在于开启“AI下半场”,实现通往**实用智能体的最后一公里** [48] - 基准名称“Vita”(拉丁语“生命,生活”)寓意智能的终极考场在**生活本身** [49]