Workflow
深夜,OpenAI、谷歌等更新多款模型
第一财经·2025-08-06 15:17

大模型厂商新品发布动态 - OpenAI开源两款MoE架构推理模型gpt-oss-120b(1170亿参数/51亿激活参数)和gpt-oss-20b(210亿参数/36亿激活参数),标志其开闭源策略转变[3][4] - Anthropic推出Claude Opus 4.1模型,采用渐进式更新策略,在SWE-bench Verify基准测试得分74.5%(较前代+2pct),终端编程/推理/多语言问答能力均有提升[6][7] - 谷歌发布实时交互世界模型Genie 3,支持720p分辨率下24fps动态画面生成(最长数分钟),物理模拟涵盖水/光/生态系统等自然现象[8][9] 技术性能突破 - gpt-oss-120b在编码/工具调用基准测试中接近闭源o4-mini水平,gpt-oss-20b性能对标o3-mini,均支持端侧部署(80GB GPU/16GB消费级设备)[5] - Claude Opus 4.1在Terminal-Bench/GPQA Diamond/MMMLU基准测试分别达43.3%/80.9%/89.5%,客户反馈代码修改精准度显著提升[7] - Genie 3视觉记忆追溯达1分钟,画面一致性时长较Genie 2的8秒提升至数分钟,可模拟复杂环境交互(如摩托艇撞击灯笼效果)[8][9] 战略方向变化 - OpenAI时隔六年重启开源,CEO称两款模型耗资数十亿美元研发,强调本地部署能力(笔记本/手机端运行)[3][5] - Anthropic转向高频次渐进更新模式,计划未来数周持续推出改进版本,聚焦AI智能体能力强化[6] - 谷歌将世界模型定位为AGI关键路径,Genie 3突破实时交互边界但存在动作空间/多智能体模拟等局限[8][11]