VitaBench - 财报，业绩电话会，研报，新闻

VitaBench

搜索文档

量子位· 2025-10-27 13:37

核心观点 - 美团开源其最新视频生成模型LongCat-Video，参数规模为13.6B，支持文生视频、图生视频及视频延长，生成视频时长可达数分钟，整体质量在开源模型中达到SOTA水平 [1][8] - 该模型在物理世界建模和理解能力上表现突出，部分核心维度可与谷歌闭源模型Veo3媲美，并采用允许商用的MIT协议 [8][9][64] - 此次发布是美团在AI领域系列布局的最新动作，标志着“跨界”AI成为公司新常态 [65][68][70] 模型功能与性能 - **文生视频**：可生成720p、30fps高清视频，语义理解与视觉呈现能力达开源SOTA级别，尤其在足球、体操等复杂动态场景中表现出对真实世界的高度理解能力 [15][16][18] - **图生视频**：能够保留参考图像的主体属性、背景关系与整体风格，在一致性挑战中表现稳定，例如生成机器人工作vlog时桌面环境未发生异变 [18][22][23][24] - **视频延长**：为核心差异化能力，可基于多帧条件帧续接视频内容，稳定输出长达5分钟的视频而不会出现颜色漂移或质量下降，支持像制作连续剧一样生成完整情节 [32][33][38][48] - **性能基准**：在内部测试中，文生视频整体质量超越PixVerse-V5和Wan2.2-T2V-A14B；在VBench 2.0公开测试总得分位列第三（62.11%），在常识性维度（运动合理性、物理定律遵循）上处于领先优势 [62][63][64] 技术创新与架构 - **统一架构设计**：以Diffusion Transformer（DiT）为框架，集成文生视频、图生视频和视频续生三大任务于单一13.6B参数模型中，通过条件帧数量区分任务 [41][42][44][47] - **长视频生成能力**：通过直接在视频续生任务上预训练，从源头解决累积误差问题，并支持交互式生成，允许用户为不同片段设置独立指令 [45][46][48][49] - **效率优化**：采用从粗到精的生成范式，结合块稀疏注意力将计算量降至原生10%以下，并通过CFG蒸馏和一致性模型蒸馏将采样步数从50步缩减至16步，效率提升超10倍 [51][52][53] - **训练优化**：使用组相对策略优化（GRPO）算法，并采用视觉质量（VQ）、运动质量（MQ）和文本-视频对齐度（TA）三类专用奖励模型进行多奖励加权融合训练 [54][56][57][58][59] 公司AI战略布局 - LongCat-Video是美团龙猫大模型系列的最新成员，此前公司已陆续开源了总参数560B的基础模型LongCat-Flash-Chat、具备深度思考能力的LongCat-Flash-Thinking以及语音模型LongCat-Audio-Codec [65][66][68][70] - 公司还专为外卖送餐、餐厅点餐等复杂现实生活场景打造了Agent评测基准VitaBench，系统性衡量Agent能力 [70] - 一系列动作表明，AI正成为公司核心战略的重要组成部分，跨界布局已成常态 [65][70]

LongCat-Flash-Thinking

LongCat-Flash-Thinking

AI点外卖哪家强，美团LongCat团队做了个全面评测

量子位· 2025-10-20 09:16

美团LongCat团队投稿发自凹非寺量子位 | 公众号 QbitAI 美团LongCat团队发布了当前高度贴近真实生活场景、面向复杂问题的大模型智能体评测基准—— VitaBench （Versatile Interactive Tasks Benchmark）。 VitaBench以外卖点餐、餐厅就餐、旅游出行三大高频生活场景为典型载体，构建了一个包含 66个工具的交互式评测环境，并设计了跨场景综合任务。例如，在旅行规划任务中，要求智能体通过推理、调用工具与用户交互，完整完成从购票到预订餐厅的全流程。团队首次从深度推理、工具使用与用户交互三大维度对智能体任务进行量化拆解，从而实现对复杂问题的可控构建。评测结果显示，即便是当前先进的推理模型，在主榜（复杂跨场景任务）上的成功率也仅约 30% ，揭示了现有智能体与真实生活应用需求之间的显著差距。目前，VitaBench已全面开源，旨在为推动智能体在真实生活场景中的研发与落地提供重要基础设施。研究背景：智能体评测与现实应用间存在巨大鸿沟随着大语言模型在复杂推理与工具调用能力上的快速进步，基于LLM的智能体在真实生活场景中的应用日益广泛。 ...