文章核心观点 - MiniMax新一代大模型M2在轻量级软件工程Agent基准测试mini-SWE-agent中表现最佳,超越了其他竞品[1][2] - M2模型的核心优势在于其采用的“交错思维”技术,该技术通过将推理与工具调用交错进行,实现了“思考-行动-反思”的闭环,显著提升了Agent的执行能力、规划性和自我纠错能力[4][5] - “交错思维”技术正成为高性能Agent模型的行业标配,解决了长链路任务中的“状态漂移”问题,并已在成本效率上展现出巨大优势[22][31] 模型性能表现 - 在mini-SWE-agent基准测试中,MiniMax M2模型的表现超越DeepSeek、GLM、Qwen、Kimi等其他竞品厂商[2] - 保持前轮思维状态使M2在BrowseComp任务中性能从31.4跃升至44.0,涨幅达40.1%;在Tau²复杂工具调用测试中性能提升35.9%;在SWE-Bench Verified基准上取得3.3%的增长[25] - 在包含8步推理、7次工具调用的完整流程中,M2的总成本仅为$0.001669,比同级别Claude Sonnet便宜近12倍[31] 交错思维技术分析 - 交错思维技术核心是“思考→行动→观察→再思考”的动态循环,区别于传统的线性Chain-of-Thought模式[10][12] - 该技术从根源上解决了Agent长链路任务中的“状态漂移”问题,使计划、意图和中间结论可以跨轮次延续[16][17] - 与Memory、Long Context和RAG等技术不同,交错思维侧重于“存逻辑”而非“存事实”,类似于电脑的RAM与硬盘的区别[20] - 该技术已得到行业广泛采纳,除MiniMax外,Kimi K2、Gemini 3 Pro、DeepSeek V3.2等头部模型厂商也开始采用类似机制[22][26] 开发者生态与成本优势 - MiniMax M2发布一个多月即在实际Agent使用场景中获得开发者广泛认可,被用于构建深度研究Agent[5] - 通过提供两种主流API格式的最佳实践,确保开发者能充分利用交错思维技术[34][37] - 公司与Kilo Code、RooCode、Cline、OpenRouter、Ollama等合作伙伴合作,推动交错思维成为可复用的行业标准[38] - 开源项目Mini-Agent已获得700+ Star,社区关注度持续提高[44][45] 行业影响与标准化进程 - MiniMax M2作为国产开源模型代表,被纳入AWS的Amazon Bedrock模型库[6] - 公司正为行业构建更标准化、工程化的Agent执行范式,加速交错思维从技术特性演变为可直接调用的能力[46] - 随着高效稳定的Agentic能力展现,未来可能有更多厂商采用类似技术,推动API平台和编程工具完善相应支持[46]
从MiniMax到DeepSeek:为何头部大模型都在押注「交错思维」?
机器之心·2025-12-04 14:10