MiniMax深夜开源首个推理模型M1,这次是真的卷到DeepSeek了。
数字生命卡兹克·2025-06-17 08:23
不知道还有多少人记得,AI行业的六小虎。 行业内都在说,他们已经寂静好久了。 在AIME 2024逻辑数学题目上(偏奥数思维)和 LiveCodeBench编程题上、还有 SWE-bench Verified(真实世界代码补全+修改) ,MiniMax M1的表现只 能说中规中矩,有弱的、有强的。 而TAU-bench(需要理解任务目标、推理动机的场景) ,M1 准确率62.8%,开始媲美开源模型。 但是,最离谱的来了,最后一个,MRCR(4-needle)。 这个直接,屠榜了,真的就一瞬间,一柱擎天,直接跟Gemini2.5Pro肩并肩,我相信用过Gemini 2.5 pro的伙伴,都知道,这玩意的上下文有多离谱,而 现在,MiniMax M1作为一个开源的大模型,首次,在这个评测集上,能跟Gemini 2.5 Pro并驾齐驱了。 上一次相关的项目发布,还是前一段时间我写的MiniMax声音模型的更新, Speech-02。 而昨晚凌晨将近12点的时候,又是MiniMax,居然在X上,预告了他们一整周的发布计划。 给我整不会了,不是,为什么总是选择这么阴间的时间点发布啊。。。 而第一天(也就是昨天),发布了 ...