Workflow
我让最强 AI 推理模型陪我打《王者荣耀》,我这个青铜直接起飞
36氪·2025-03-31 08:47

靠着吉卜力,OpenAI 又大出了一把风头。但实际在过去的一周里,有不少模型发布了版本更新,包括 DeepSeek,Gemini,Qwen。个个都是在推理上有 所增强,以及多模态的支持。 每次有新的推理模型升级或者出现,怎么领略它们的能力很棘手。说白了,老让它们做题也没什么意思。 周末打游戏的时候,我忽然意识到:游戏不就是最好的试验场景吗? 版本齐齐更新,推理能力再上一层 Qwen 在周五的凌晨发布了全新自家视觉推理模型的全新版本 QvQ-Max。不仅能够「看懂」图片和视频里的内容,还能结合这些信息进行分析、推理,甚 至给出解决方案。 一种潜在的使用场景是,让模型 能通过读取游戏记录,根据相对应的关卡,制定作战计划。这意味着不仅要搞懂所有的素材,还要有分析和计算的能 力。 Gemini 这边,则是三月 25 日推出的 2.5 Pro Experimental,推理、写代码以及多模态理解都有全面提高。在数学和科学基准测试(如 GPQA 和 AIME 2025)中排名超越 OpenAI 的 03 mini。 | | | Gemini | OpenAl | OpenAl | Claude | Grok | Deep ...