小米新开源旗舰!MiMo-2.5更省token:10分钟仿写SBTI测试

小米模型MiMo-V2.5-Pro发布与性能测试 - 公司正式发布旗舰模型MiMo-V2.5-Pro,该模型由此前以Hunter Alpha之名匿名测试的MiMo-V2-Pro升级而来 [1][2] - 模型在“洗车”逻辑推理测试中顺利通过,能识别出问题刁钻并定位关键事实,其思考过程为英文 [5][6][7] - 在“父亲为什么崩溃了”测试中,模型初次回答未能通过,经简单提示后思考了2分多钟得出正确答案,表明其具备相关知识但缺乏主动拼凑零散线索的能力 [10][12][13] 模型编程与复杂任务开发能力评估 - 在Vibe Coding测试中,模型被要求开发一个仿SBTI测试网站,在未使用额外技能的情况下,10分钟左右完成开发,生成包括主页面、引擎、样式及数据文件在内的完整项目 [19][21][48][49] - 项目成功复刻了原版SBTI算法,包含30道题目和25种程序员类型,数据与代码分离设计使其可通过更换JSON数据快速生成新测试 [50][51][54] - 在更复杂的GSD框架开发测试中,模型虽能自动生成项目规划,将项目分为4个阶段并指出第2、3阶段可并行开发,但在执行时跳过了框架规定的讨论、计划、执行、验证等标准步骤,倾向于选择最直接的路径手写代码 [39][42][58][61][62] 小米Token Plan额度调整与行业影响 - 伴随新模型发布,公司对所有用户的Token Plan额度进行了重置 [4] - 公司调整了Token消耗策略,旗舰模型消耗额度从最高4倍降至最高2倍,非高峰时间打8折,连续包月另有折扣 [68] - 此次调整源于模型效率提高,公司曾建议行业不要盲目降价以避免损害用户体验和服务质量,此后其他模型公司也开始响应,将按调用次数计费改为按Token消耗量乘以倍数,影响了行业计费标准 [66][71][73][74]

小米新开源旗舰!MiMo-2.5更省token:10分钟仿写SBTI测试 - Reportify