Workflow
MiMo V2 Pro
icon
搜索文档
OpenClaw大考!上海AI Lab InternLM团队WildClawBench 60题,把「龙虾」AI打回原形
机器之心· 2026-04-11 11:25
WildClawBench评测基准的推出 - 上海人工智能实验室InternLM团队推出了一个名为WildClawBench的全新AI Agent评测基准,旨在填补当前评测体系的空白[6] - 该基准不再关注碎片化的单次函数调用正确率,而是通过模拟真实、复杂的多模态多步骤任务,对AI的端到端闭环交付能力进行实战检验[5][6] - 基准将AI Agent置于一个名为OpenClaw的真实助手环境中,该环境配备完整的工具集,如浏览器、终端、文件系统、日历,以模拟真实用户场景[9] 评测基准的设计与内容 - 基准包含60道手工原创设计的任务,覆盖中英双语,分布在6个不同类别中[9] - 每项任务在独立的Docker容器中运行,评分用的标准答案和脚本在执行结束后才注入,从根本上杜绝了数据泄露,确保评测结果的真实性[9][10] - 任务类别包括:生产力流程(10题)、代码智能(12题)、社交互动(6题)、搜索检索(11题)、创意合成(11题)和安全对齐(10题)[11][17][18][19][22][25] - 任务设计高度复杂且贴近真实工作,例如要求AI逐篇阅读并分析arXiv论文的详细内容、在没有文档的情况下理解代码仓库并运行推理、处理多轮社交沟通、交叉验证矛盾信息、根据视频制作宣传材料以及识别隐藏的安全风险等[12][13][17][18][19][22][25] 主要模型评测结果 - 截至2026年4月1日,该基准已评测了14个前沿模型,结果显示整体表现天花板较低,排名第一的Claude Opus 4.6模型总体得分仅为51.6%[3][27][28] - 在成本效率方面差异显著,Claude Opus 4.6单次运行平均成本超过80美元,而得分50.3%的GPT-5.4成本约为20美元,智谱AI的GLM 5模型成本仅为11.39美元[28][29] - 国产模型表现突出,在14个参评模型中有9个来自中国团队,智谱AI的GLM 5以42.6%的得分位列总榜第三,是唯一进入前三的国产模型,其成本不到Claude Opus 4.6的七分之一[29] - 小米的MiMo V2 Pro模型以40.2%的得分排名第五,超过了Google DeepMind的Gemini 3.1 Pro模型,显示出国产模型在AI Agent端到端能力上的快速追赶[29] 基准的社区与开源价值 - 该基准设有一个“个人OpenClaw排行榜”,允许用户提交自己定制化训练的AI助手(被称为“龙虾”)进行评测,从而帮助社区理解哪些技能组合、人格设定和记忆策略能有效提升任务完成率[32][33][34] - WildClawBench项目采用MIT开源协议,全部60道任务的定义、评分代码、Docker镜像和数据集均已公开,并提供了任务模板,鼓励社区按照统一格式贡献新任务[15][35][36][37] - 该基准为衡量AI Agent在真实复杂任务中的能力提供了一把“刻度清晰的尺子”,当前最强模型的得分仍不足60%,表明行业距离开发出真正可靠的AI助手仍有距离[38]
西游取经团再出征:小米 Token Plan 能把 Token 价格打下来吗?
雷峰网· 2026-04-10 20:44
Xiaomi MiMo V2 Pro模型发布 - 小米于4月3日发布了MiMo V2 Pro模型,这是第一款采用“走字儿”Token计费方案的模型[2] - 该模型定位为“面向Agent时代的旗舰基座模型”,原生支持1M(一百万)的超长上下文窗口[25][31] - 模型在复杂任务中表现出色,例如在OpenClaw框架下成功构建了多角色协作系统,完成从算法开发到论文撰写的完整科研闭环[9][17][25] Token Plan计费方案 - 小米推出全新的Token Plan计费方案,以Credit为最小计数单位,用户购买不同额度的套餐,调用不同模型时Credit与Token的换算比例不同[3] - 该方案取消了行业常见的“5小时滚动窗口”使用时间限制,允许用户集中消耗Token[3] - 计费逻辑是基于模型文本处理量(Token)直接计费,旨在更公平地衡量不同复杂度任务的实际成本[6] - 具体换算比例为:MiMo-V2-Omni 256k上下文为1:1;MiMo-V2-Pro 256k上下文为1:2;MiMo-V2-Pro 256k~1M上下文为1:4;MiMo-V2-TTS限时免费[5] 套餐价格与成本分析 - 小米Token Plan提供四档套餐:Lite(中国¥39/月,海外$6/月,含0.6亿Credits)、Standard(中国¥99/月,海外$16/月,含2亿Credits)、Pro(中国¥329/月,海外$50/月,含7亿Credits)、Max(中国¥659/月,海外$100/月,含16亿Credits)[29] - 根据官方估算,各套餐可执行的中等~复杂任务数量分别为:Lite约120个,Standard约400个,Pro约1400个,Max约3200个[29] - 在实测中,一个包含复杂架构设计与多Agent协同的科研项目,总成本约为一个Lite套餐额度的60%[26] - 与竞品对比,在单一价格维度上,小米的Pro套餐(¥329)价格高于Claude Pro($20)等,但低于ChatGPT Pro($200)[30] 模型能力实测表现 - 在“小样本垂直领域文本分类基线系统”开发任务中,模型(孙悟空Agent)在3-4小时内完成了从数据读取、清洗到训练评估的全流程闭环,实现了TF-IDF+LogReg和BERT fine-tuning两种基线模型,并输出了完整的工程化项目,包含334行的train.py和120行的evaluate.py等文件[11][13][15][16] - 在多Agent协同科研任务中,模型成功协调五个不同角色的Agent(唐僧、孙悟空、猪八戒、沙僧、白龙马),完成了从课题立项到论文初稿的完整闭环,最终产出9个文件,总规模132KB[17][20][21][25] - 模型展现了处理长程、多步骤任务的能力,能够自动识别任务依赖关系形成有向无环图,并在执行中进行迭代复盘与问题补救[20][21][24] 计费模式的行业对比与挑战 - 与传统订阅制相比,Token按量计费避免了平台因任务难度波动导致的成本不可预测问题,但给用户带来了预估Token消耗量的认知负担[4][6][28] - 与按调用次数计费的Coding Plan相比,Token计费更能体现不同任务的复杂度差异[6] - 行业主流厂商(如火山引擎、阿里云百炼)的Coding Plan虽标称请求次数,但实际会根据Token消耗量进行折算或对超长上下文任务适用惩罚倍数,存在“隐性”经济约束[32][33] - 小米的Token Plan将超长上下文从成本负担转化为价值锚点,其性价比高度依赖于任务场景,特别是在需要长上下文和多轮工具调用的Agent场景中优势明显[31] 战略与生态意义 - 小米的Token Plan被视为一种带有封顶机制的API Plan,其背后统一的计费方式可能是小米为“人车家全生态”AI功能接入做准备的一个信号[37] - 小米生态和用户数据构成了其模型业务的天然护城河,为MiMo模型提供了巨大的应用空间[37] - 该计费方案是行业模型层竞争进入下半场的一个新尝试,探索在保障单位经济回正的同时,如何更好地服务专业开发者和复杂生产场景[36][37]