文章核心观点 VERSES公司旗舰产品Genius在与DeepSeek的R1模型的“Mastermind”挑战中显著胜出,展示了其在多步推理问题上的先进性能,凸显了特定领域模型对于使AI代理更可靠的重要性 [1][4] 挑战情况 - 挑战内容为对比DeepSeek - R1模型和Genius,让每个模型在最多十次猜测内破解100局Mastermind代码,每次猜测会给出提示,需推理出正确答案的缺失部分,全部六种代码颜色正确才算破解成功 [2] 挑战结果 性能指标对比 - 成功率方面Genius为100%,R1为45% [2] - 100局总计算时间Genius为5分18秒(平均每局3.1秒),R1为26小时(平均每局334秒) [2] - 100局总成本Genius估计为0.05美元,R1为38.94美元 [2] - 硬件要求上Genius为Mac M1 Pro,R1为GPU Cloud [2] 性能亮点总结 - Genius比DeepSeek的模型快245倍,成本低超779倍 [1][3] - 准确性和可靠性上Genius 100%破解代码,DeepSeek仅45% [5] - 速度上Genius每局用时1.1 - 4.5秒,DeepSeek平均934秒(约15.5分钟) [5] - 效率上Genius 100局总计算时间超5分钟,DeepSeek为26小时 [5] - 成本上Genius 100局计算成本估计0.05美元,DeepSeek的R1模型为38.94美元 [5] 公司观点 - 首席技术官Hari Thiruvengada表示这展示了Genius特定领域模型在多步推理问题上的先进性能,Mastermind测试需多步逻辑推理、预测因果理解和动态适应能力,凸显Genius通过贝叶斯方法和主动推理利用领域代理进行逐步推理的优势 [4] - 创始人兼CEO Gabriel René称很多AI模型难有效输出结果,Genius多步推理和动态调整能力对使代理在现实场景中更高效、准确可靠至关重要;认为Genius与大语言模型高度互补,能增强其能力;若DeepSeek的R1标志大语言模型商品化阶段,此次测试表明Genius赋能的特定领域模型是使AI代理真正可靠的缺失环节,AI的“最后一公里”挑战——准确性是解锁财富500强等市场采用的关键 [4] 公司介绍 - VERSES是一家认知计算公司,构建受自然智慧启发的下一代智能软件系统,旗舰产品Genius是供机器学习从业者建模复杂动态系统和生成自主智能代理的工具套件 [7]
VERSES® Genius™ Outperforms DeepSeek R1 Model in Code-Breaking “Mastermind” Challenge