刚刚,蝉联Future X全球榜首的MiroMind发布全球最强搜索智能体模型
机器之心·2026-01-05 14:09

公司及产品发布 - MiroMind团队于1月5日正式发布其自研旗舰搜索智能体模型MiroThinker 1.5 [1] - 该公司由企业家陈天桥与清华大学学者代季峰教授联合发起,其使命是在未知条件下重建对世界的理解,押注“发现式智能” [1] - 公司认为真正的智能不靠全知,而依靠研究、查证和修正的能力,旨在将“预测未来”从特权变成能力 [1] 核心性能与评测 - MiroThinker-v1.5-30B仅用300亿参数规模,跑出了比肩众多1万亿参数模型的性能表现 [4] - MiroThinker-v1.5-235B版本在多个搜索智能体基准测试中跻身全球第一梯队 [4] - 在BrowseComp评测中,MiroThinker-v1.5-235B在BrowseComp得分为69.8,在BrowseComp-ZH得分为71.5,在GAIA Val-165得分为80.8 [8] - MiroThinker-v1.5-30B在BrowseComp-ZH评测中得分为66.8,超越了部分更大规模的模型 [8] 成本与效率优势 - MiroThinker-v1.5-30B单条调用成本低至0.07美元,仅为对比模型Kimi-K2-Thinking的1/20,且推理速度更快 [9] - 该模型以300亿参数挑战参数量高达30倍的万亿参数模型Kimi-K2-Thinking,并在关键评测集BrowseComp-ZH中实现性能超越 [9] - 公司强调其路线是追求高“智效比”的“巧劲”,而非盲目扩大参数 [3] 技术理念与架构创新 - 公司提出传统以扩大模型内部参数为核心的Scaling Law已触及边际瓶颈,未来需转向以“外部信息交互”为核心的Interactive Scaling [10] - MiroThinker 1.5将Interactive Scaling机制内化为贯穿训练与推理全流程的核心能力,训练模型像科学家一样勤于查证,执行“提出假设→查证→修正假设→再查证”的研究闭环 [11] - 该技术路线的核心是将智能的增长空间从内部参数扩展到外部世界,通过“推理-验证-修正”循环引入外部信息作为校验锚点,解决传统思维链导致的逻辑坍塌问题 [14] - 公司刻意将模型规模控制在300亿至2000亿参数的轻量级范围,将算力重点投入对外部信息的获取与交互 [12] 训练方法论 - 公司采用了Training-time Interactive Scaling技术,将Interactive Scaling从推理阶段前移并内化为训练阶段的核心机制 [15] - 在训练中刻意削弱对“单次完美推理”的奖励,转而强化三种行为模式:Evidence-Seeking(主动求证)、Iterative Verification(多轮校验与自我修正)、Anti-Hallucination(对捷径的系统性过滤) [16][19] - 通过“时序敏感训练沙盒”约束模型“只能看过去,不能看未来”,在严格的时间可见性约束下进行判断和验证,以更接近真实世界的决策过程 [17][18] - 训练体系包含可控数据合成引擎和时序敏感训练机制,确保推演与评分符合真实世界的时序逻辑,杜绝未来信息泄露 [20] 应用案例展示 - 在A股涨停板预测案例中,模型展示了在噪声市场中利用开放世界证据与因果推断进行预测的能力 [22] - 具体案例显示,在12月10日市场晋级率25%的退潮环境中,模型从8支二板股中精准押中唯一晋级的一支 [22] - 在12月11日晋级率22%的环境中,模型命中了9支连板股中的高位晋级者 [25] - 在12月12日情绪回暖(晋级率54%)时,模型不仅命中市场最高连板,还准确预判其继续晋级,后续累计涨幅达58% [29] - 在12月15日市场再度降温(晋级率38%)时,模型继续命中连板股 [30] - 在美股事件影响分析案例中,模型对CES 2026、苹果诉讼听证会、英伟达对华出口监管等事件对“美股七巨头”的潜在影响和波动方向做出了结构化分析 [31][32] - 模型还对GTA 6能否按时发布进行了分析预测 [35]

刚刚,蝉联Future X全球榜首的MiroMind发布全球最强搜索智能体模型 - Reportify