AI点外卖哪家强，美团LongCat团队做了个全面评测

美团LongCat团队发布VitaBench智能体评测基准 - 美团LongCat团队发布了一个高度贴近真实生活场景、面向复杂问题的大模型智能体评测基准VitaBench [1] - 该基准以外卖点餐、餐厅就餐、旅游出行三大高频生活场景为载体，构建了包含66个工具的交互式评测环境，并设计了跨场景综合任务 [1] - 基准旨在为智能体在真实生活场景中的研发与落地提供重要基础设施，并已全面开源 [4] 研究背景与行业痛点 - 现有智能体评测基准与现实应用需求存在显著差距，主要体现在工具生态简单化、信息密度不足、模型探索性受限、交互动态性缺失等方面 [5][6] - 真实世界任务的复杂性源于推理复杂性、工具复杂性、交互复杂性三大维度的交织 [6][7] VitaBench基准构建方法论 - 基准通过三维复杂度框架对智能体任务进行量化拆解，建模为部分可观测马尔可夫决策过程 [9] - 推理复杂度通过观测空间大小、部分可观测度、推理点数量衡量，单个任务可涉及5-20个服务提供商、最多超过100个候选产品 [9][10] - 工具复杂度通过工具图的大小与密度、工具调用链路长度与子图覆盖率衡量，基准提炼了66个真实工具并构建有向图 [11][17] - 交互复杂度通过用户模拟器实现，模拟器基于真实平台数据构建多样化用户画像，并涵盖情绪表达、交互模式等行为属性 [13][18] - 基准构建采用两阶段流程：框架设计（工具定义、依赖构建、用户模拟）和任务创建（任务指令、环境数据、评估标准） [16][19][25] 基准数据规模与评估方法 - 基准共构建了400项评测任务，包括300项单场景任务和100项跨场景任务 [25] - 基准环境数据库包含大量真实数据，例如跨场景任务涉及1,324个服务提供商、6,946个产品、447笔交易 [20] - 针对长轨迹评估，团队提出了基于Rubric的滑动窗口评估器，以克服传统状态比对方法的不足，实现了更全面、细粒度的行为覆盖 [22] - 评估器与人工标注相比，Cohen's κ达0.828，显著优于无Rubric或无滑动窗口的基线方法 [40][41] 主流大模型评测结果分析 - 团队评测了包括GPT-5、Claude-4.1-Opus、Gemini-2.5-Pro、Kimi-K2、GLM-4.5、LongCat-Flash等在内的20余款主流大模型 [26] - 跨场景任务带来极大挑战：表现最佳的o3 (high)模型在跨场景任务上的成功率也仅为30.0%，远低于单场景任务的48.3% [28] - 模型行为高度不稳定：尽管部分模型在跨场景任务的Pass@4（至少一次成功）指标可达60%，但Pass^4（四次全成功）接近0% [29] - “思考型”模型显著优于“非思考型”：启用链式推理的模型普遍提升5–8个百分点，且交互轮次更少 [32] 复杂性维度有效性验证 - 推理复杂性：任务所需推理点数量与成功率呈强负相关，在线旅行与跨场景任务平均包含9.7–10.3个推理点 [34] - 工具复杂性：工具图的节点与边数量越多任务越难，跨场景任务涉及66个工具、512条依赖边，是所有任务中最复杂的 [35] - 交互复杂性：引入真实用户模拟器后，模型性能下降15–25个百分点，尤其对弱模型影响更大 [36] 核心组件可靠性验证 - 用户模拟器在信息保真度（9.48/10）与人格一致性（9.34/10）两项指标上均表现优异 [38] - 滑动窗口评估器与人工标注的一致性高，Cohen's κ达0.828 [40] 模型典型失败案例分析 - 模型错误主要分为三大类别：推理相关错误（61.8%）、工具相关错误（21.1%）、交互相关错误（7.9%） [43] - 当前模型普遍存在忽略时空与常识推理细节、因不确定性提前放弃任务、在失败或需求模糊时重复无效操作而非调整策略等失误模式 [45][51] 行业意义与展望 - VitaBench不仅是一个评测基准，更是一套关于“Agentic Task Complexity”的理论框架，首次系统量化了三大维度对智能体性能的影响 [46][47] - 该工作揭示了当前模型在真实生活场景中的能力边界，目标在于开启“AI下半场”，实现通往实用智能体的最后一公里 [48] - 基准名称“Vita”（拉丁语“生命，生活”）寓意智能的终极考场在生活本身 [49]