MiMo V2 Pro - 财报，业绩电话会，研报，新闻

MiMo V2 Pro

搜索文档

OpenClaw大考！上海AI Lab InternLM团队WildClawBench 60题，把「龙虾」AI打回原形

机器之心· 2026-04-11 11:25

WildClawBench评测基准的推出 - 上海人工智能实验室InternLM团队推出了一个名为WildClawBench的全新AI Agent评测基准，旨在填补当前评测体系的空白[6] - 该基准不再关注碎片化的单次函数调用正确率，而是通过模拟真实、复杂的多模态多步骤任务，对AI的端到端闭环交付能力进行实战检验[5][6] - 基准将AI Agent置于一个名为OpenClaw的真实助手环境中，该环境配备完整的工具集，如浏览器、终端、文件系统、日历，以模拟真实用户场景[9] 评测基准的设计与内容 - 基准包含60道手工原创设计的任务，覆盖中英双语，分布在6个不同类别中[9] - 每项任务在独立的Docker容器中运行，评分用的标准答案和脚本在执行结束后才注入，从根本上杜绝了数据泄露，确保评测结果的真实性[9][10] - 任务类别包括：生产力流程（10题）、代码智能（12题）、社交互动（6题）、搜索检索（11题）、创意合成（11题）和安全对齐（10题）[11][17][18][19][22][25] - 任务设计高度复杂且贴近真实工作，例如要求AI逐篇阅读并分析arXiv论文的详细内容、在没有文档的情况下理解代码仓库并运行推理、处理多轮社交沟通、交叉验证矛盾信息、根据视频制作宣传材料以及识别隐藏的安全风险等[12][13][17][18][19][22][25] 主要模型评测结果 - 截至2026年4月1日，该基准已评测了14个前沿模型，结果显示整体表现天花板较低，排名第一的Claude Opus 4.6模型总体得分仅为51.6%[3][27][28] - 在成本效率方面差异显著，Claude Opus 4.6单次运行平均成本超过80美元，而得分50.3%的GPT-5.4成本约为20美元，智谱AI的GLM 5模型成本仅为11.39美元[28][29] - 国产模型表现突出，在14个参评模型中有9个来自中国团队，智谱AI的GLM 5以42.6%的得分位列总榜第三，是唯一进入前三的国产模型，其成本不到Claude Opus 4.6的七分之一[29] - 小米的MiMo V2 Pro模型以40.2%的得分排名第五，超过了Google DeepMind的Gemini 3.1 Pro模型，显示出国产模型在AI Agent端到端能力上的快速追赶[29] 基准的社区与开源价值 - 该基准设有一个“个人OpenClaw排行榜”，允许用户提交自己定制化训练的AI助手（被称为“龙虾”）进行评测，从而帮助社区理解哪些技能组合、人格设定和记忆策略能有效提升任务完成率[32][33][34] - WildClawBench项目采用MIT开源协议，全部60道任务的定义、评分代码、Docker镜像和数据集均已公开，并提供了任务模板，鼓励社区按照统一格式贡献新任务[15][35][36][37] - 该基准为衡量AI Agent在真实复杂任务中的能力提供了一把“刻度清晰的尺子”，当前最强模型的得分仍不足60%，表明行业距离开发出真正可靠的AI助手仍有距离[38]

AI Agent

Agency 智能

Artificial Intelligence

Artificial Intelligence

WildClawBench

Claude Opus 4.6

GPT-5.4

西游取经团再出征：小米 Token Plan 能把 Token 价格打下来吗？

雷峰网· 2026-04-10 20:44

Xiaomi MiMo V2 Pro模型发布 - 小米于4月3日发布了MiMo V2 Pro模型，这是第一款采用“走字儿”Token计费方案的模型[2] - 该模型定位为“面向Agent时代的旗舰基座模型”，原生支持1M（一百万）的超长上下文窗口[25][31] - 模型在复杂任务中表现出色，例如在OpenClaw框架下成功构建了多角色协作系统，完成从算法开发到论文撰写的完整科研闭环[9][17][25] Token Plan计费方案 - 小米推出全新的Token Plan计费方案，以Credit为最小计数单位，用户购买不同额度的套餐，调用不同模型时Credit与Token的换算比例不同[3] - 该方案取消了行业常见的“5小时滚动窗口”使用时间限制，允许用户集中消耗Token[3] - 计费逻辑是基于模型文本处理量（Token）直接计费，旨在更公平地衡量不同复杂度任务的实际成本[6] - 具体换算比例为：MiMo-V2-Omni 256k上下文为1:1；MiMo-V2-Pro 256k上下文为1:2；MiMo-V2-Pro 256k~1M上下文为1:4；MiMo-V2-TTS限时免费[5] 套餐价格与成本分析 - 小米Token Plan提供四档套餐：Lite（中国¥39/月，海外$6/月，含0.6亿Credits）、Standard（中国¥99/月，海外$16/月，含2亿Credits）、Pro（中国¥329/月，海外$50/月，含7亿Credits）、Max（中国¥659/月，海外$100/月，含16亿Credits）[29] - 根据官方估算，各套餐可执行的中等~复杂任务数量分别为：Lite约120个，Standard约400个，Pro约1400个，Max约3200个[29] - 在实测中，一个包含复杂架构设计与多Agent协同的科研项目，总成本约为一个Lite套餐额度的60%[26] - 与竞品对比，在单一价格维度上，小米的Pro套餐（¥329）价格高于Claude Pro（$20）等，但低于ChatGPT Pro（$200）[30] 模型能力实测表现 - 在“小样本垂直领域文本分类基线系统”开发任务中，模型（孙悟空Agent）在3-4小时内完成了从数据读取、清洗到训练评估的全流程闭环，实现了TF-IDF+LogReg和BERT fine-tuning两种基线模型，并输出了完整的工程化项目，包含334行的train.py和120行的evaluate.py等文件[11][13][15][16] - 在多Agent协同科研任务中，模型成功协调五个不同角色的Agent（唐僧、孙悟空、猪八戒、沙僧、白龙马），完成了从课题立项到论文初稿的完整闭环，最终产出9个文件，总规模132KB[17][20][21][25] - 模型展现了处理长程、多步骤任务的能力，能够自动识别任务依赖关系形成有向无环图，并在执行中进行迭代复盘与问题补救[20][21][24] 计费模式的行业对比与挑战 - 与传统订阅制相比，Token按量计费避免了平台因任务难度波动导致的成本不可预测问题，但给用户带来了预估Token消耗量的认知负担[4][6][28] - 与按调用次数计费的Coding Plan相比，Token计费更能体现不同任务的复杂度差异[6] - 行业主流厂商（如火山引擎、阿里云百炼）的Coding Plan虽标称请求次数，但实际会根据Token消耗量进行折算或对超长上下文任务适用惩罚倍数，存在“隐性”经济约束[32][33] - 小米的Token Plan将超长上下文从成本负担转化为价值锚点，其性价比高度依赖于任务场景，特别是在需要长上下文和多轮工具调用的Agent场景中优势明显[31] 战略与生态意义 - 小米的Token Plan被视为一种带有封顶机制的API Plan，其背后统一的计费方式可能是小米为“人车家全生态”AI功能接入做准备的一个信号[37] - 小米生态和用户数据构成了其模型业务的天然护城河，为MiMo模型提供了巨大的应用空间[37] - 该计费方案是行业模型层竞争进入下半场的一个新尝试，探索在保障单位经济回正的同时，如何更好地服务专业开发者和复杂生产场景[36][37]

小米集团(HK:01810)

多Agent协同科研

AI模型计费方案

Artificial Intelligence

MiMo V2 Pro

Xiaomi MiMo Token Plan

多Agent协同科研

AI模型计费方案

Artificial Intelligence

MiMo V2 Pro

Xiaomi MiMo Token Plan