御三家打起来了:OpenAI 开源、谷歌发布可交互的世界模型、Claude 4.1 成了编程新旗舰
OpenAI开源模型 - 发布两款开源模型gpt-oss-120b和gpt-oss-20b,采用Transformer架构和专家混合(MoE)技术,总参数分别为117B和21B,每个token激活参数分别为5.1B和3.6B [6][9] - 模型采用交替密集和局部带状稀疏注意力模式,支持128k上下文长度,使用分组多查询注意力和旋转位置编码(RoPE) [8] - 在MMLU测试中分别达到90.0和85.3分,接近o4-mini的93.0分,在AIME 2024数学竞赛中分别达到96.6和96.0分 [9] - gpt-oss-120b可在单个80GB GPU上运行,gpt-oss-20b仅需16GB内存,适合边缘设备部署 [10] - 提供Apache 2.0许可证,支持参数微调、函数调用、网页浏览和Python代码执行等Agentic功能 [14] DeepMind Genie 3 - 推出世界模型Genie 3,支持720p分辨率实时交互,场景一致性可维持数分钟 [15][17] - 相比Genie 2,分辨率从360p提升至720p,交互延迟实现实时响应 [16] - 支持提示词生成世界事件,可模拟自然现象、生态系统和不同历史场景 [15][19] Anthropic Claude Opus 4.1 - 升级旗舰模型Claude Opus 4.1,强化Agent能力和真实世界编程能力 [18] - 在SWE-bench Verified基准测试中达到74.5%,创造新纪录 [20] - 提供200K上下文窗口,在多文件代码重构方面表现突出 [23] - 定价为每百万输入token 15美元,输出token 75美元 [25]