Workflow
AI模型能力
icon
搜索文档
理想MindGPT 3.1被大大低估了
理想TOP2· 2025-08-26 23:35
MindGPT 3.1技术能力 - 推理速度达每秒200 tokens 较MindGPT 3.0提升近5倍 显著高于GPT-4o-2024-05-13的每秒79.87 tokens [2][3] - 在工具调用准确率、复杂任务完成率、深度搜索及回复丰富度上较MindGPT 3.0明显提升 [4] - 深度思考模式下在多项基准测试表现优异 包括AIME 2024(0.8625)、AIME 2025(0.7969)、LCB(0.7286)、IFEval(0.8909)、CLUEWSC(0.9539)等 [4] 算法创新与优化 - ASPO算法借鉴DeepSeek R1 GRPO选择性学习核心思想 通过样本难度预估主动管理训练池 保留预测准确率20%-80%样本进行梯度更新 [7][8][9] - AWE算法降低高难度token损失权重 减少梯度更新干扰 类比"难题暂放"学习策略 [9] - 强化学习窗口长度动态调整 性能瓶颈时采用较长窗口 稳定收敛阶段切换至较短窗口 [9] 研发战略与价值观 - 明确反对刻意刷榜行为 基座模型负责人强调更关注用户体验与实际能力而非评测分数 [4][5] - 研发资源聚焦模型推理速度提升与智能体工具调用能力建设 注重长期能力构建 [5] - 每年投入几千万元与北京市自然科学基金委员会办公室、顺义区科学技术委员会发起联合基金 面向高校老师获取未发表研究成果 [10] 产品化与用户价值 - 卡片大师Agent体现理想AI产品化能力 其底层依赖MindGPT 3.1技术支撑 [1] - 广义信息交互需求涵盖游戏等场景 信息生产方为AI而非人类 物理世界组件调度能力优于手机 [7] - 模型能力提升驱动用户价值涌现 AI时代核心主线为"模型即能力" [5][6] 行业认知与创新内化 - 快速学习并内化AI社会优秀核心思想 如DeepSeek R1 GRPO选择性学习机制 并进行原创优化 [1][9] - AI时代技术评估明确 模型能力提升优先于产品化 后者属于辅助催化剂 [6] - 智能体语言模型具备自主思考与工具调用能力 代表行业技术发展方向 [2][4]