深夜，OpenAI、谷歌等更新多款模型

大模型厂商新品发布动态 - OpenAI开源两款MoE架构推理模型gpt-oss-120b（1170亿参数/51亿激活参数）和gpt-oss-20b（210亿参数/36亿激活参数），标志其开闭源策略转变[3][4] - Anthropic推出Claude Opus 4.1模型，采用渐进式更新策略，在SWE-bench Verify基准测试得分74.5%（较前代+2pct），终端编程/推理/多语言问答能力均有提升[6][7] - 谷歌发布实时交互世界模型Genie 3，支持720p分辨率下24fps动态画面生成（最长数分钟），物理模拟涵盖水/光/生态系统等自然现象[8][9] 技术性能突破 - gpt-oss-120b在编码/工具调用基准测试中接近闭源o4-mini水平，gpt-oss-20b性能对标o3-mini，均支持端侧部署（80GB GPU/16GB消费级设备）[5] - Claude Opus 4.1在Terminal-Bench/GPQA Diamond/MMMLU基准测试分别达43.3%/80.9%/89.5%，客户反馈代码修改精准度显著提升[7] - Genie 3视觉记忆追溯达1分钟，画面一致性时长较Genie 2的8秒提升至数分钟，可模拟复杂环境交互（如摩托艇撞击灯笼效果）[8][9] 战略方向变化 - OpenAI时隔六年重启开源，CEO称两款模型耗资数十亿美元研发，强调本地部署能力（笔记本/手机端运行）[3][5] - Anthropic转向高频次渐进更新模式，计划未来数周持续推出改进版本，聚焦AI智能体能力强化[6] - 谷歌将世界模型定位为AGI关键路径，Genie 3突破实时交互边界但存在动作空间/多智能体模拟等局限[8][11]