Workflow
扩展有效交互
icon
搜索文档
不卷速度卷验证,陈天桥MiroMind精准预测15天后黄金价格
量子位· 2026-03-16 13:04
公司产品发布 - 陈天桥带队的MiroMind公司正式发布了新一代重型推理智能体模型:MiroThinker-1.7和MiroThinker-H1 [1] - MiroThinker-H1在多项深度研究任务测试中刷新了SOTA(当前最优水平),超越了Gemini-3.1-Pro、GPT-5.4-Thinking、Claude-4.6-Opus等顶尖闭源模型 [4] - 公司同时发布了开源的MiroThinker-1.7 (235B) 和小尺寸的MiroThinker-1.7-mini (30B),在效率与性能之间达到了最优平衡 [4] 产品性能与基准测试 - 新模型在BrowseComp(网页检索类大模型基准测试)中得分为88.2% [6] - 在BrowseComp-ZH(中文适配版本)中得分为84.4% [6] - 在GAIA-Val-165基准测试验证集中得分为88.5% [6] - 在HLE-Text(人类终极测试)中得分为47.7% [6] - 新模型不仅在通用任务上表现强劲,在科技金融等专业领域同样表现亮眼,能够承担真实的长链条智力任务 [13] 产品定位与核心理念 - MiroThinker系列专为复杂长期任务而生,与行业内其他厂商追求速度的路径不同 [15] - 该系列模型通过牺牲推理速度来换取深度推理能力,致力于“将算力用在刀刃上” [5][14] - 产品的核心理念是“慢下来、想更多”,强调在行动前进行暂停、验证和权衡,以确保推理的深度和准确性 [70][71] - 模型追求“扩展有效交互”,不盲目增加交互步骤,而是提升每一步的推理质量 [68][67] 核心技术突破 - 模型的核心技术突破在于“重型求解器”,其技术路径不仅仅是延长思考时间,更强调模型的可验证性和有效交互 [57][60] - 第一项关键技术是升级智能体原生训练,通过新增“中期训练”阶段,使用大规模高质量任务数据重点训练模型的规划、推理和总结能力,以提升每一步决策的质量 [60] - 第二项关键技术是以验证为核心的重型推理模式,包括局部验证和全局验证,确保推理路径的可靠性和答案的严密性 [61][62] - 引入验证机制后出现了一个“反直觉”现象:模型交互步骤数量明显减少,验证器起到了过滤器的作用,帮助模型筛除无效步骤,将算力集中用于真正推动问题求解的环节 [65][66] 实测表现:F1赛事预测 - 在预测2026年F1上海站正赛的实测中,模型在赛前2小时、赛中1小时、比赛最后半小时三个关键节点分别进行了实时预测 [20] - 模型的推理过程建立了完整的信息搜索路径,包括确认时间地点、收集排位赛和冲刺赛数据、分析规则变化和天气情况等,每一步都经过反复验证 [24][25] - 在比赛最后30分钟,模型给出的预测答案与最终结果完全一致,展现了其在动态信息中逐步收敛和优化预测的能力 [49][50] - 与其他模型(ChatGPT、Gemini、DeepSeek)相比,MiroThinker是唯一关注到当前天气状况的模型,且答案的完整度和逻辑链更优 [45][38][40][44] 实测表现:金融价格预测 - 模型曾提前15天预测2026年2月25日的黄金价格(XAU/USD),预测值为$5185/oz [54] - 实际市场中,Fortune报价$5181,150 Currency报价$5185.89,CME GCG26收盘价为$5206.40,预测误差仅为0.08%($4) [54] 团队与公司发展 - 公司由陈天桥带队,COO邴立东博士自公司诞生之初便在新加坡牵头组建初始团队 [75] - 近期有三位世界级顶尖AI科学家杜少雷、安波和杨凯峪同时加入MiroMind,他们都长期致力于开发前沿大模型的推理决策能力 [76] - 核心团队的逐步到位,结合公司的技术、人才和资金,使其虽看似入场较晚,但每一步都稳扎稳打 [77]