Workflow
我MiniMax,用实习生处理数据,照样屠榜开源大模型
量子位·2025-11-04 13:06

注意力机制选择 - 公司从Linear Attention回归到Full Attention,原因是经过测试发现Efficient Attention机制在长上下文任务中性能大幅下降,而Full Attention在稳定性和可靠性方面表现更优[11][12][13] - 团队测试了多种Efficient Attention变体包括GDN和Mamba2,但实际表现均不及Full Attention[14][15] - 当前评测系统不完善,常用榜单无法有效区分Efficient Attention与Full Attention的性能差异,但在多跳推理或长链逻辑等复杂任务中Efficient Attention劣势明显[21][22] 数据处理策略 - 公司通过雇佣实习生处理数据来证明其数据处理流程的成熟度,即使缺乏经验的人员也能达到预期效果[24][27] - 数据质量衡量标准聚焦于思维链和Response两个维度,其中思维链要求逻辑完整且表述简洁,Response部分则刻意引入格式多样性以避免对特定榜单格式的过拟合[31][32][34][35] - 公司构建了基于规则和大模型判断的数据清洗流程,专门针对典型bad case进行清理,以消除模型幻觉和指令未遵循等问题[37][38] 模型思考模式创新 - 公司提出"交错式思维链"策略,使思考过程在显式推理与工具调用之间交替进行,形成"计划→行动→反思"循环,显著提升长链任务容错率和环境扰动适应能力[45][46][47][48] - 为解决模型工具调用能力泛化不足的问题,公司设计覆盖全轨迹扰动的数据链路,模拟工具变化、系统提示语调整、环境参数异常等多种真实场景,增强模型在不确定性中的任务完成能力[50][51][52] 技术发展路径 - 公司技术决策以工程理性为导向,优先考虑模型在真实任务中的稳定性与可用性,而非盲目追求算力节省,这一思路在MoE架构探索阶段已得到验证[53][54][55] - 模型定位强调实用性,旨在为开发者提供落地工具,注重解释逻辑和系统性迭代,而非参数堆叠的"炫技模型"[56][57]