开源模型
搜索文档
DeepSeek终于把OpenAI逼急了
凤凰网· 2025-08-06 16:21
OpenAI战略转向 - 公司发布首个开源语言模型GPT-OSS 包括120B和20B两个版本 [1][3] - GPT-OSS-120B采用MoE架构 总参数1170亿 激活参数51亿 单张80GB GPU即可运行 性能接近闭源o4-mini [4] - GPT-OSS-20B总参数210亿 激活参数36亿 16GB内存设备可流畅运行 性能接近o3-mini [4] - 模型支持多语种多领域训练数据 可免费商用 [4][5] 中国开源模型发展 - DeepSeek通过模型结构创新大幅降低成本 被业内称为"AI届拼多多" [7] - 阿里通义千问近三个月发布6波更新 新增55个以上模型版本 [8] - 中国形成"开源四杰"生态格局 包括通义Qwen Kimi K2 智谱GLM-4.5 腾讯混元HunyuanWorld-1 [8] - 中国开源模型在编程 数学 多语言等领域逼近或超越OpenAI闭源模型 [8] 行业竞争格局变化 - OpenAI从闭源收费模式转向开放协作生态 [6] - Meta考虑放弃开源策略 转向开发闭源模型 [9] - OpenAI采取员工信息保护措施 防止人才被挖角 [9] - 中国开源模型的爆发式发展触动OpenAI和硅谷神经 [1][9]
Claude 小升级就赢了OpenAI 9年“开源神作”?高强度推理直接歇菜、幻觉率高达50%,写作还被Kimi 2吊锤?
36氪· 2025-08-06 15:32
产品发布 - OpenAI发布其自GPT-2以来首批开源语言模型系列gpt-oss,包括gpt-oss-120b和gpt-oss-20b两款模型 [1][7] - 模型权重可在Hugging Face上免费下载,采用Apache 2.0许可证,原生使用MXFP4量化格式,使得gpt-oss-120b可在80GB内存内运行,gpt-oss-20b仅需16GB内存 [1][5] - 模型支持完整的思维链推理和结构化输出,并可通过系统消息中的一句话设置低、中、高三种推理力度 [1][5] 技术架构 - gpt-oss模型为Transformer架构,利用混合专家模型来减少活跃参数,gpt-oss-120b总参数1170亿,每个令牌激活51亿参数;gpt-oss-20b总参数210亿,每个令牌激活36亿参数 [4] - 模型采用交替的密集型和局部带状稀疏注意力模式,使用分组多查询注意力和旋转位置嵌入,原生支持长达128k的上下文长度 [4] - 训练结合了强化学习及借鉴OpenAI内部最先进模型的技术,后训练过程与o4-mini类似,包括有监督微调和强化学习阶段 [4][5] 性能表现 - 在核心推理基准测试上,gpt-oss-120b表现接近OpenAI o4-mini,gpt-oss-20b结果与o3-mini相近 [6] - 在工具使用、思维链推理等方面,两款模型表现出色,甚至超过了OpenAI o1和GPT-4o等专有模型 [6] - 但Artificial Analysis的独立测试显示,gpt-oss-120b智能水平落后于DeepSeek R1和Qwen3 235B,后两者得分分别为59分和64分 [8] 行业竞争 - 几乎与gpt-oss开源同时,谷歌Deepmind宣布推出Genie 3,Anthropic放出Claude Opus 4.1 [1] - Claude Opus 4.1在SWE-bench Verified编程评测中表现达74.5%,无害回复率从上代97.27%提升至98.76% [3] - 有用户实测对比指出Claude Opus 4.1编码能力最强且稳定,而gpt-oss-120b写代码不稳定,gpt-oss-20b效果较好 [3] 模型局限性 - 在PersonQA基准上,gpt-oss-120b和gpt-oss-20b的幻觉率分别高达49%和53%,远高于o1模型的16%和o4-mini的36% [11][12] - Tau-Bench测试显示gpt-oss-20b工具调用可靠性得分为54.8分,明显逊色于120b的67.8分和o3的70.4分 [13] - 用户实测反馈模型创意写作能力不佳,高强度推理模式易陷入无限循环并超时 [12][14]
OpenAI、谷歌等深夜更新多款模型 展示开源、智能体、世界模型进展
第一财经· 2025-08-06 12:59
大模型厂商新品发布 - AI创业公司Anthropic发布Claude Opus 4 1 称该模型是Opus 4在代理任务 现实世界编码和推理方面的升级版 [1] - 谷歌推出新一代世界模型Genie 3 这是公司第一个支持实时交互的世界模型 [1] - OpenAI开源gpt-oss-120b和gpt-oss-20b两个推理模型 这是OpenAI时隔六年再次开源模型 [1] OpenAI开源策略转变 - OpenAI开源的gpt-oss-120b参数量为1170亿 采用MoE架构 激活参数量51亿 [2] - gpt-oss-20b参数量为210亿 同样采用MoE架构 激活参数量36亿 [2] - gpt-oss-120b在竞赛编码 工具调用基准测试中的得分接近或超过闭源的o4-mini模型 [2] - gpt-oss-20b在基准测试中的分数与o3-mini相当或超过o3-mini [2] - 新模型可在电脑 手机等端侧设备上本地部署 gpt-oss-120b可在单张80GB容量的GPU上运行 gpt-oss-20b可在16GB内存的消费级设备上运行 [2] Anthropic产品策略调整 - Anthropic决定更频繁地推出产品渐进式更新 而非只专注于重大版本更新 [3] - Claude Opus 4 1在深入研究 数据分析 代理搜索方面的能力较前一代有所提升 [3] - 新产品擅长处理复杂的多步骤问题 被定位为更有效的AI智能体 [3] - 在SWE-bench Verify基准测试中 Claude Opus 4 1得分74 5% 超过Opus 4的72 5% [4] - 在Terminal-Bench GPQA Diamond MMMLU基准测试中的得分分别为43 3% 80 9% 89 5% 超过Opus 4的39 2% 79 6% 88 8% [4] 谷歌世界模型进展 - 谷歌推出通用世界模型Genie 3 是公司第一个允许进行实时交互的世界模型 [5] - Genie 3可以生成多样化的交互环境 模拟水 光等自然现象 生成包含动物 植物的生态系统 创造动画角色并模拟复杂环境下各种元素的相互作用 [5] - Genie 3可以以每秒24帧的速度进行导航 在720p分辨率下保持长达几分钟的画面一致性 视觉记忆可追溯至一分钟前 [5] - Genie 3可生成长达几分钟的画面一致性 而Genie 2只能生成8秒 [6] - Genie 3可模拟灯光节期间在水面上行驶的摩托艇 效果十分真实 [6]
OpenAI、谷歌等深夜更新多款模型,展示开源、智能体、世界模型进展
第一财经· 2025-08-06 12:49
OpenAI产品策略变化 - OpenAI时隔六年再次开源模型,推出gpt-oss-120b和gpt-oss-20b两个推理模型,参数量分别为1170亿和210亿,均采用MoE架构 [1][2] - 开源策略转变源于DeepSeek引领的开源趋势,CEO表示推出强大开源模型"非常重要",这两款模型是耗资数十亿美元的研究成果 [1] - gpt-oss-120b在竞赛编码、工具调用基准测试中接近或超过闭源o4-mini,gpt-oss-20b与o3-mini相当或更优,性能属开源模型第一梯队 [2] - 新模型支持端侧设备本地部署,gpt-oss-120b可在单张80GB GPU运行,gpt-oss-20b可部署在16GB内存消费级设备甚至手机 [2] Anthropic产品策略变化 - 公司改变以往专注重大版本更新的策略,转向更频繁推出渐进式更新,此次发布Claude Opus 4.1并计划未来几周推出更多更新 [3] - Claude Opus 4.1在代理任务、现实世界编码和推理方面升级,擅长处理复杂多步骤问题,定位为更有效的AI智能体 [1][3] - 在SWE-bench Verify测试中得分74.5%超过前代72.5%,Terminal-Bench、GPQA Diamond、MMMLU测试分别达43.3%、80.9%、89.5%均超前代 [4] - 用户反馈显示代码修改精准度和调试效率明显改善 [4] 谷歌世界模型进展 - 推出首个支持实时交互的通用世界模型Genie 3,被视为迈向AGI的关键垫脚石 [5] - 可生成多样化交互环境,模拟水、光等自然现象及生态系统,动画角色和复杂元素相互作用,画面一致性达几分钟 [5] - 相比Genie 2的8秒画面一致性,Genie 3能生成长达几分钟的720p画面,视觉记忆可追溯一分钟前 [5][6] - 演示显示可模拟摩托艇撞击效果、生成推进视角的教室场景等高度逼真交互 [6] - 仍存在动作空间有限、多智能体交互模拟困难、交互时长不足数小时等局限 [9] 行业技术趋势 - 大模型能力持续升级,通过开源端侧部署模型、推进智能体技术、实现世界模型交互等方式提升可用性 [9]
谁在拆 OpenAI 的围墙?
36氪· 2025-08-06 09:41
OpenAI战略转向开源 - OpenAI突然宣布开源两款新模型gpt-oss-120b和gpt-oss-20b 这是自GPT-2以来首次重新向开源社区开放模型权重 [1] - 公司过去几年一直是"闭源派"代表 依靠GPT-3和GPT-4的技术优势建立商业壁垒 几乎垄断大模型时代的入口和定价权 [1] - 此次开源采用Apache 2 0协议 明确允许商用和二次开发 直接对标Meta的Llama模型 [3] 开源策略的深层考量 - 公司保留核心技术护城河 未开放GPT-4核心架构 仅提供中等规模模型 既不影响高端产品线又能吸引开发者 [3] - 底层代码修改受限 训练数据 优化策略和系统架构等关键要素仍由公司掌控 [3] - 通过部分开放换取生态主导权 让开发者依赖其工具链 同时通过闭源体系维持高利润业务 [4] 行业竞争格局变化 - 开源模型性能已逼近GPT-4 成本仅为1/20 采用宽松开源协议形成市场竞争压力 [2] - Anthropic采取相反策略 发布闭源模型Claude 4 1 专注企业级安全和可靠性 瞄准金融 法律等高端客户 [5][6] - AI行业进入分层竞争时代 OpenAI双轨制与Anthropic专精路线形成差异化竞争 [7] 开发者生态影响 - 新模型支持本地部署和云端扩展 兼容主流框架 大幅降低智能体开发门槛 [8] - 独立开发者可在个人设备运行接近GPT-4能力的模型 可能催生新一代AI应用创新 [8] - 开源生态正在消费端实现反超 类似Linux Firefox Android等历史案例的开源成功路径 [10] 监管与风险对冲 - 美国自2023年加强AI监管 开源模型因透明可审计的特性更易通过合规审查 [8] - 公司通过开源策略提前卡位 为未来监管环境变化做好准备 [8] - 技术流动性和生态开放性成为行业新竞争维度 [10]
奥特曼深夜官宣:OpenAI重回开源,两大推理模型追平o4-mini,号称世界最强
36氪· 2025-08-06 08:31
OpenAI深夜扔出开源核弹,gpt-oss 20B和120B两款模型同时上线。它们不仅性能比肩o3-mini和o4-mini,而且还能在消费级显卡甚至手机上轻松运行。 GPT-2以来,奥特曼终于兑现了Open AI。 他来了!他来了! 就在今夜,奥特曼带着两款全新的开源模型走来了! 正如几天前泄露的,它们分别是总参数1170亿,激活参数51亿的「gpt-oss-120b」和总参数210亿,激活参数36亿的「gpt-oss-20b」。 终于,OpenAI再次回归开源。 gpt-oss-120b 在核心推理基准测试中,120B模型的表现与OpenAI o4-mini相当,并且能在单张80GB显存的GPU上高效运行(如H100)。 gpt-oss-20b适用于低延迟、本地或专业化场景 在常用基准测试中,20B模型的表现与OpenAI o3-mini类似,并且能在仅有16GB显存的边缘设备上运行。 除此之外,两款模型在工具使用、少样本函数调用、CoT推理以及HealthBench评测中也表现强劲,甚至比OpenAI o1和GPT-4o等专有模型还要更强。 其他亮点如下: 宽松的Apache 2.0许可证:可自由用于 ...
OpenAI发布2款开源模型,北大校友扛大旗
虎嗅· 2025-08-06 08:15
本文来自微信公众号:APPSO (ID:appsolution),作者:发现明日产品的,原文标题:《刚刚,OpenAI发布2款开源模型!手机笔记本也能跑,北大校 友扛大旗》,题图来自:AI生成 时隔五年之后,OpenAI刚刚正式发布两款开源权重语言模型——gpt-oss-120b和gpt-oss-20b,而上一次他们开源语言模型,还要追溯到2019年的GPT-2。 OpenAI是真open了。 而今天AI圈也火药味十足,OpenAI开源gpt-oss、Anthropic推出Claude Opus 4.1(下文有详细报道)、Google DeepMind发布Genie 3,三大巨头不约而同在 同一天放出王炸,上演了一出神仙打架。 OpenAI CEO Sam Altman(山姆·奥特曼)在社交媒体上的兴奋溢于言表:"gpt-oss发布了!我们做了一个开放模型,性能达到o4-mini水平,并且能在高端 笔记本上运行。为团队感到超级自豪,这是技术上的重大胜利。" 模型亮点概括如下: gpt-oss-120b:大型开放模型,适用于生产、通用、高推理需求的用例,可运行于单个H100 GPU(1170亿参数,激活参数为5 ...
OpenAI发布ChatGPT世代首个开源模型gpt-oss,4060Ti都能跑得动。
数字生命卡兹克· 2025-08-06 06:08
行业动态 - Google发布世界模型Genie 3 该模型引发行业高度关注 被视为游戏和VR领域的重要突破[3] - Anthropic发布Claude Opus 4 1 在编程能力上持续进化 被解读为针对OpenAI的竞争行为[5][7] OpenAI开源模型GPT-oss - 公司首次在ChatGPT时代发布开源模型 包含120B和20B两个MoE架构版本[9][12][14] - 模型采用Apache 2 0许可 允许自由使用 120B版本参数117B 激活参数5 1B 20B版本参数20 9B 激活参数3 6B 均支持128K上下文[14][15][16][17] - 原生支持4-bit量化技术 20B模型仅需12 8GB存储空间 可在16GB显卡运行 120B模型可在80G单卡运行[18][20][25][26] - 采用MXFP4量化格式 性能损失极小 与英伟达NVFP4技术类似[24][27][29] 模型性能表现 - 在MMLU测试中 120B和20B版本分别获得90 0和85 3分 接近OpenAI商业版本[32] - 在GPQA Diamond测试中分别获得80 1和71 5分 在AIME数学竞赛中表现优异[32][38] - 在Codeforces编程测试中分别获得2622和2516分 优于DeepSeek R1但逊于商业版本[32] - 在写作能力测试中 20B版本表现优于同尺寸开源模型 但逊于商业大模型[67][69] 应用场景 - 提供在线试用平台gpt-oss com 并已接入OpenRouter API服务[39][40] - 支持本地部署 可通过Ollama工具运行 20B版本响应速度极快[44][49][50][51] - 在代码生成和数学推理方面表现突出 但存在一定幻觉问题[74][75] - 被视为改变开源社区格局的重要产品 可能推动行业竞争格局变化[80][81]
六年来首次!OpenAI新模型开放权重,Altman称为"全球最佳开放模型"
华尔街见闻· 2025-08-06 04:05
公司动态 - OpenAI发布六年来首批开放权重模型gpt-oss-120b和gpt-oss-20b,这是自2019年GPT-2后首次开放模型权重[1] - 两款模型采用专家混合(MoE)架构,gpt-oss-120b总参数1170亿,每token激活5.1亿参数;gpt-oss-20b总参数210亿,每token激活3.6亿参数[5][6] - 模型支持128k上下文长度,gpt-oss-20b可在16GB内存设备运行,gpt-oss-120b需要约80GB内存[2][6] 技术性能 - gpt-oss-120b在竞赛编码、通用问题求解和工具调用方面超越o3-mini并匹敌o4-mini,在健康查询和竞赛数学方面甚至超过o4-mini[7] - gpt-oss-20b性能达到或超过o3-mini,在竞赛数学和健康领域表现更优[7][8] - 模型采用交替密集和局部带状稀疏注意力模式,支持本地推理无需联网[3][5] 战略合作 - 亚马逊首次在其Bedrock和SageMaker平台提供OpenAI模型[3] - 微软将为Windows设备提供GPU优化版gpt-oss-20b,支持通过VS Code工具包获取[4] - 公司与英伟达、AMD等芯片商合作确保跨平台兼容性,英伟达CEO称赞其开源创新[15] 安全措施 - 模型经过严格安全测试,预训练时过滤化学、生物、放射性和核相关有害数据[11] - 开展50万美元奖金红队挑战赛,鼓励发现安全问题[12] - 采用Apache 2.0许可免费提供,可通过Hugging Face和GitHub下载[11] 市场影响 - 发布被视为对Meta、Mistral AI和中国DeepSeek等竞争对手的回应[1] - 标志公司战略转向,此前多次推迟开放权重模型发布[3] - 开放权重形态介于开源闭源之间,允许用户查看修改模型权重[3]
中国AI猛追美国
日经中文网· 2025-08-05 10:43
中国AI行业发展现状 - 中国国内完成备案的AI模型数量半年增长45%,累计达439款 [4] - 世界人工智能大会参展企业数量同比增加60%,展示40多款AI模型和60多款机器人 [4] - 中国生成式AI性能与美国差距从2024年1月的9.26%缩小至2025年2月的1.7% [5] 企业动态与技术进展 - 阿里巴巴展示开源AI模型"Qwen2.5-Max",在日语测试中全球排名第12位,超越Meta同类产品 [7] - 京东集团宣布开始提供开源型AI智能体 [7] - DeepSeek开发低成本基础模型引发全球关注,推动中国企业加速开源模型公开 [7] 国际竞争格局 - 美国发布《AI行动计划》国家战略,试图通过技术优势遏制中国AI发展 [9] - 中国在半导体领域推进国产化,但尖端芯片仍依赖美国产品 [9] - 全球50%的AI研究人员为中国人,中国在人才储备和生态系统活跃度上具有优势 [7] 跨国合作与影响 - 日本国立信息学研究所采用阿里巴巴Qwen模型开发本土AI"LLM-jp-3.1" [8] - 中国计划向新兴市场推广AI模型,中美未来将在服务出口领域展开竞争 [9] - 中国国务院总理呼吁成立AI合作组织,解决芯片短缺和人才交流受限问题 [4]