Workflow
OpenAI、谷歌等深夜更新多款模型 展示开源、智能体、世界模型进展
第一财经·2025-08-06 12:59

大模型厂商新品发布 - AI创业公司Anthropic发布Claude Opus 4 1 称该模型是Opus 4在代理任务 现实世界编码和推理方面的升级版 [1] - 谷歌推出新一代世界模型Genie 3 这是公司第一个支持实时交互的世界模型 [1] - OpenAI开源gpt-oss-120b和gpt-oss-20b两个推理模型 这是OpenAI时隔六年再次开源模型 [1] OpenAI开源策略转变 - OpenAI开源的gpt-oss-120b参数量为1170亿 采用MoE架构 激活参数量51亿 [2] - gpt-oss-20b参数量为210亿 同样采用MoE架构 激活参数量36亿 [2] - gpt-oss-120b在竞赛编码 工具调用基准测试中的得分接近或超过闭源的o4-mini模型 [2] - gpt-oss-20b在基准测试中的分数与o3-mini相当或超过o3-mini [2] - 新模型可在电脑 手机等端侧设备上本地部署 gpt-oss-120b可在单张80GB容量的GPU上运行 gpt-oss-20b可在16GB内存的消费级设备上运行 [2] Anthropic产品策略调整 - Anthropic决定更频繁地推出产品渐进式更新 而非只专注于重大版本更新 [3] - Claude Opus 4 1在深入研究 数据分析 代理搜索方面的能力较前一代有所提升 [3] - 新产品擅长处理复杂的多步骤问题 被定位为更有效的AI智能体 [3] - 在SWE-bench Verify基准测试中 Claude Opus 4 1得分74 5% 超过Opus 4的72 5% [4] - 在Terminal-Bench GPQA Diamond MMMLU基准测试中的得分分别为43 3% 80 9% 89 5% 超过Opus 4的39 2% 79 6% 88 8% [4] 谷歌世界模型进展 - 谷歌推出通用世界模型Genie 3 是公司第一个允许进行实时交互的世界模型 [5] - Genie 3可以生成多样化的交互环境 模拟水 光等自然现象 生成包含动物 植物的生态系统 创造动画角色并模拟复杂环境下各种元素的相互作用 [5] - Genie 3可以以每秒24帧的速度进行导航 在720p分辨率下保持长达几分钟的画面一致性 视觉记忆可追溯至一分钟前 [5] - Genie 3可生成长达几分钟的画面一致性 而Genie 2只能生成8秒 [6] - Genie 3可模拟灯光节期间在水面上行驶的摩托艇 效果十分真实 [6]