Workflow
OpenAI、谷歌等深夜更新多款模型,展示开源、智能体、世界模型进展
第一财经·2025-08-06 12:49

OpenAI产品策略变化 - OpenAI时隔六年再次开源模型,推出gpt-oss-120b和gpt-oss-20b两个推理模型,参数量分别为1170亿和210亿,均采用MoE架构 [1][2] - 开源策略转变源于DeepSeek引领的开源趋势,CEO表示推出强大开源模型"非常重要",这两款模型是耗资数十亿美元的研究成果 [1] - gpt-oss-120b在竞赛编码、工具调用基准测试中接近或超过闭源o4-mini,gpt-oss-20b与o3-mini相当或更优,性能属开源模型第一梯队 [2] - 新模型支持端侧设备本地部署,gpt-oss-120b可在单张80GB GPU运行,gpt-oss-20b可部署在16GB内存消费级设备甚至手机 [2] Anthropic产品策略变化 - 公司改变以往专注重大版本更新的策略,转向更频繁推出渐进式更新,此次发布Claude Opus 4.1并计划未来几周推出更多更新 [3] - Claude Opus 4.1在代理任务、现实世界编码和推理方面升级,擅长处理复杂多步骤问题,定位为更有效的AI智能体 [1][3] - 在SWE-bench Verify测试中得分74.5%超过前代72.5%,Terminal-Bench、GPQA Diamond、MMMLU测试分别达43.3%、80.9%、89.5%均超前代 [4] - 用户反馈显示代码修改精准度和调试效率明显改善 [4] 谷歌世界模型进展 - 推出首个支持实时交互的通用世界模型Genie 3,被视为迈向AGI的关键垫脚石 [5] - 可生成多样化交互环境,模拟水、光等自然现象及生态系统,动画角色和复杂元素相互作用,画面一致性达几分钟 [5] - 相比Genie 2的8秒画面一致性,Genie 3能生成长达几分钟的720p画面,视觉记忆可追溯一分钟前 [5][6] - 演示显示可模拟摩托艇撞击效果、生成推进视角的教室场景等高度逼真交互 [6] - 仍存在动作空间有限、多智能体交互模拟困难、交互时长不足数小时等局限 [9] 行业技术趋势 - 大模型能力持续升级,通过开源端侧部署模型、推进智能体技术、实现世界模型交互等方式提升可用性 [9]