开源模型

搜索文档
全网开测GPT-oss!技术架构也扒明白了
量子位· 2025-08-07 08:56
模型性能表现 - GPT-oss在多项基准测试中表现优异,横扫GPQA Diamond、AIME 2024、AIME 2025和Codeforces榜单,超越DeepSeek R1、Qwen3、Llama 4、Kimi K2等开源模型 [4][5] - 在MMLU测试中Qwen3-235B略胜一筹,Kimi-K2在SWE-Bench上得分更高 [7] - GPT-oss-120B在核心推理基准测试中与o4-mini效果相当,可在单个80GB GPU上高效运行 [9] - 20B模型在编码测试中表现出色,能准确模拟复杂物理场景和完成3D渲染任务 [11][12][13] - 模型通过经典逻辑测试如"英文草莓里有多少个字母'r'"和鹈鹕推理测试,展现强大空间想象力和逻辑连贯性 [15] 技术架构分析 - GPT-oss结构设计更宽,拥有更多注意力头、更高隐藏维度和更多Transformer模块 [22] - 注意力机制中添加了偏差单元,这一结构曾在GPT-2中出现 [24] - 采用MoE Transformer核心架构,通过细节优化提升性能并降低复杂度 [26] - 使用改进的swiglu激活函数,通过α=1.702让silu近似gelu,并采用裁剪激活值等技术防止梯度爆炸 [26][27] - 采用YaRN技术扩展上下文窗口,提升长文本处理能力 [28] 应用场景与生态 - 网友开发多种应用场景,包括论文解读、数据整理和构建GPT-oss Pro版(10个模型连接) [17][18][20] - 模型可轻松将PDF、Word等原始数据转换为LLM测试集 [19] - AWS宣布通过Amazon Bedrock和Amazon SageMaker上线该模型,便于构建生成式AI应用 [34] - 吴恩达等专家测试后认为GPT-oss-120B性能强大,Binyuan Hui指出其合成数据训练方法有助于小模型性能提升 [37] 成本与可用性 - GPT-oss-120B训练成本约420万至2310万美元,20B模型成本为其十分之一 [30] - 20B模型可在16GB内存边缘设备运行,适合本地推理和快速迭代 [9] - 用户可通过LM Studio下载20B模型,或使用AWS平台部署 [33][34] 局限性及改进 - 模型在非英语文本上表现不佳,55%情况下存在语法或拼写错误 [30] - 官方发布技术文档指导用户通过LoRA微调实现多语言支持 [32]
中国“霸榜”全球开源大模型:光环下的隐忧与挑战丨人工智能AI瞭望台
证券时报· 2025-08-07 08:32
中国开源大模型全球领先地位 - 全球知名AI开源社区Hugging Face榜单显示排名前十的开源大模型中中国占据九席 [1][4] - 智谱GLM-4.5排名第一 阿里通义千问系列独霸五个席位 腾讯混元大模型和月之暗面Kimi K2同时上榜 [4] - 中国开源大模型以集群式崛起重塑全球AI版图 自年初至今DeepSeek和阿里被称为开源双子星 [1][4] 开源模型爆发式增长 - 2024年7月底国产大模型迎来开源井喷潮:阿里连续发布4款开源模型 腾讯开源混元3D世界模型1.0 智谱发布GLM-4.5 阶跃星辰开源Step-3 [4] - 开源模式降低使用门槛 通过微调定制服务、云平台分成等路径实现盈利 [8][9] - 头部企业开放代码汇聚众智形成良性循环正向反馈 [5] 中美技术路径分化 - 中国大力拥抱开源模型 美国科技公司主流选择闭源模型 Meta创始人表示会谨慎选择开源内容 [7] - 后发者倾向于开源打破闭源者构建的生态 先发者倾向于闭源保持独特性 [8] - 中国凭借开源技术透明性在全球获得信任建立开发者生态 [8] 技术优势与驱动因素 - 依托海量优质中文语料深度挖掘垂直应用场景构建差异化训练数据集 [5] - 华为昇腾为代表的国产化算力底座成熟 为大规模分布式训练奠定基础 [5] - 数据-算力-场景构筑强劲闭环优势 [5] 创新瓶颈与同质化挑战 - 开源模型基于主流Transformer架构微调 能力差距未拉开 存在微调内卷倾向 [2][11] - 模型进步依赖工程调优而非训练框架及算法创新 缺乏颠覆式创新 [11] - 新模型推出频繁但技术壁垒不足 能力差距未拉开 [11] 开发者生态面临挑战 - 模型更新频繁导致接口变化 开发者需反复重写模型调用脚本 [1][12] - 密钥管理割裂 版本迭代失控 集成工作面临困扰 [11][12] - 版本更迭过频导致下游应用适配成本激增 [12] 盈利模式探索 - 智谱向企业和政府提供付费定制化解决方案 [9] - 阿里通过开源模型吸引开发者使用其云计算等基础设施 [9] - 通过云服务获取收益 [9]
中国“霸榜”全球开源大模型:光环下的隐忧与挑战丨人工智能AI瞭望台
证券时报· 2025-08-07 08:12
中国开源大模型崛起 - 中国开源大模型呈现"集群式"崛起,近期阿里、腾讯、智谱等公司密集开源新模型,Hugging Face榜单前十中中国占据九席 [2][4] - 阿里通义千问系列两周内开源六款模型,腾讯混元3D世界模型、智谱GLM-4.5、阶跃星辰Step-3等相继发布,形成"开源井喷潮" [4] - DeepSeek的成功被视为开源路径的标杆,推动更多中国公司转向开源策略 [4] 中美AI发展路径分化 - 中国公司普遍选择开源路线,而美国Meta等公司转向闭源,OpenAI等先发者通过闭源巩固技术壁垒 [7] - 开源模式帮助中国后发者快速建立开发者生态,通过技术透明性获取全球信任 [7][8] - 中国厂商依托中文语料库和国产算力底座(如华为昇腾)构建差异化优势,形成"数据-算力-场景"闭环 [5] 商业化探索 - 开源模型通过云服务分成(阿里)、定制化解决方案(智谱)等模式实现盈利,降低中小企业AI使用门槛 [8] - 开源加速AI在智能制造质检、金融风控等领域的落地,推动技术普及 [8] 技术挑战与隐忧 - 当前开源模型仍基于Transformer架构微调,存在"微调内卷"和同质化问题,缺乏底层架构创新 [10] - 模型迭代过快导致开发者面临接口频繁变更、密钥管理割裂等问题,适配成本激增 [10][11] - 需推动统一API标准并加强基础算法创新,避免低水平重复建设 [10][11]
DeepSeek终于把OpenAI逼急了
阿尔法工场研究院· 2025-08-07 08:08
OpenAI发布开源模型GPT-OSS - OpenAI突然发布首个开源语言模型GPT-OSS,包括gpt-oss-120b和gpt-oss-20b两个版本 [5][6][9] - gpt-oss-120b采用MoE架构,拥有1170亿参数,激活参数约51亿,可在单张80GB GPU上运行,性能接近闭源o4-mini [10] - gpt-oss-20b基于MoE架构,有210亿参数,激活参数约36亿,可在16GB内存设备上流畅运行,性能接近o3-mini [11] - 模型训练数据涵盖多语种多领域,且可免费用于商业用途 [14] OpenAI战略转向 - 此前OpenAI一直坚持"闭源+收费"路线,GPT-4和GPT-4o核心模型均未开放 [12] - GPT-OSS的发布标志着公司从闭源独占转向开放协作的模型生态 [16] - 这一战略调整被认为是深思熟虑的结果,而非一时冲动 [16] 中国开源模型的快速发展 - 中国开源模型发展迅猛,DeepSeek凭借R1模型引发行业关注,其V2模型通过结构创新大幅降低成本 [18] - 阿里通义千问(Qwen)近三个月密集迭代,发布6波更新,新增55个以上模型版本 [20] - 中国开源生态蓬勃发展,涌现出Kimi K2、智谱GLM-4.5、腾讯混元HunyuanWorld-1等有影响力的开源模型 [20] - 中国开源模型在编程、数学、多语言等领域正逼近甚至超越OpenAI闭源模型 [20] 行业竞争格局变化 - 中国开源模型的爆发式发展触动了OpenAI和硅谷的神经 [22] - Meta正酝酿策略转向,可能放弃开源策略转而开发闭源模型 [22] - OpenAI与Meta的竞争加剧,OpenAI采取员工信息保护等措施应对 [22]
资金动向 | 北水买日港股超90亿港元,加仓腾讯、阿里
格隆汇· 2025-08-07 03:07
南下资金流向 - 腾讯控股获南下资金净买入15.18亿港元,连续10日累计净买入59.4402亿港元 [1] - 阿里巴巴-W获南下资金净买入8.76亿港元,连续3日累计净买入21.1572亿港元 [1] - 中芯国际获南下资金净买入6.11亿港元,连续3日累计净买入9.5105亿港元 [1] - 晶泰控股获南下资金净买入5.32亿港元 [1] - 康方生物获南下资金净买入1.37亿港元 [1] - 理想汽车-W获南下资金净买入1.19亿港元 [1] - 小米集团-W遭南下资金净卖出2.29亿港元 [1] - 泡泡玛特遭南下资金净卖出2.23亿港元 [1] - 美团-W遭南下资金净卖出1.47亿港元 [1] 个股表现 - 腾讯控股股价上涨1.7%,成交额45.54亿港元 [3] - 品泰控股股价大涨12.4%,成交额45.18亿港元 [3] - 阿里巴巴-W股价上涨0.6%,成交额31.64亿港元 [3] - 中芯国际股价上涨3.1%,成交额23.30亿港元 [3] - 理想汽车-W股价下跌5.4%,成交额21.94亿港元 [3] - 美团-W股价下跌1.5%,成交额19.70亿港元 [3] - 泡泡玛特股价上涨7.9%,成交额16.75亿港元 [3] - 英诺赛科股价下跌8.6%,成交额14.27亿港元 [3] - 比亚迪电子股价上涨6.7%,成交额12.83亿港元 [3] - 小米集团-W股价下跌0.6%,成交额12.76亿港元 [3] 公司动态 - 阿里巴巴-W推出全新大会员体系,整合饿了么、飞猪等阿里系资源 [5] - 阿里巴巴开源文生图模型Qwen-Image,登上Hugging Face模型榜单首位 [5] - 中芯国际将于8月7日发布财报,市场预期Q2营收21.85亿美元(同比增14.91%) [6] - 晶泰控股与美国DoveTree达成60亿美元AI制药合作订单 [6] - 理想汽车联合中国汽研、东风柳汽发布行业自律倡议 [6] - 大摩维持泡泡玛特"增持"评级,目标价365港元 [6]
时隔六年,OpenAI 为什么再次开源?
Founder Park· 2025-08-06 22:00
文章核心观点 - OpenAI发布开源模型gpt-oss,这是继GPT-2后首次开源尝试,性能与o4 mini相当但成本降低至少10倍[2][7] - 公司战略重心从模型本身转向用户基础和应用生态,开源旨在吸引企业用户而非传统开源社区[4][5][12] - 模型采用稀疏MoE架构,与行业趋势一致,但技术细节披露有限且存在"伪开源"争议[14][19] - 中美开源模型竞争格局可能因此改变,小模型系列(10-70亿参数)将迎来机会[20][22] 模型性能与技术细节 - gpt-oss-120b在MMLU测试得分90,GPQA Diamond 80.1,AIME 2024 96.6,与o4 mini性能接近[3] - 采用混合专家(MoE)架构,gpt-oss-120b含51亿活跃参数/1210亿总参数,支持MXFP4量化[7][14][15] - 模型原生支持工具调用但生态混乱,存在"幻觉"工具调用的风险[17] - 官方未公布训练数据/代码/技术报告,安全措施限制微调自由度[12][15] 战略意图分析 - 通过成本优势(比o4 mini低10倍)冲击API市场,为GPT-5发布铺路[10][13] - 目标用户是企业而非开源社区,旨在构建应用生态而非技术共享[5][12][19] - 公司认识到模型本身不再是核心竞争力,用户规模和应用生态才是护城河[4][13] - 此举可能改变中美开源竞赛格局,美国开源生态有望扭转落后局面[21][22] 行业影响 - 稀疏MoE架构成为行业标准,中国模型如DeepSeek V3/Qwen已形成技术积累[14][22] - 开源模型激励机制不稳定,中美采取不同发展路径[22][23] - 小参数模型(10-70亿)将迎来发展机会,大模型竞争激烈[20][22] - 需要基础模型和训练细节的全面公开以促进研究,当前发布存在不足[24]
DeepSeek终于把OpenAI逼急了
凤凰网· 2025-08-06 16:21
OpenAI战略转向 - 公司发布首个开源语言模型GPT-OSS 包括120B和20B两个版本 [1][3] - GPT-OSS-120B采用MoE架构 总参数1170亿 激活参数51亿 单张80GB GPU即可运行 性能接近闭源o4-mini [4] - GPT-OSS-20B总参数210亿 激活参数36亿 16GB内存设备可流畅运行 性能接近o3-mini [4] - 模型支持多语种多领域训练数据 可免费商用 [4][5] 中国开源模型发展 - DeepSeek通过模型结构创新大幅降低成本 被业内称为"AI届拼多多" [7] - 阿里通义千问近三个月发布6波更新 新增55个以上模型版本 [8] - 中国形成"开源四杰"生态格局 包括通义Qwen Kimi K2 智谱GLM-4.5 腾讯混元HunyuanWorld-1 [8] - 中国开源模型在编程 数学 多语言等领域逼近或超越OpenAI闭源模型 [8] 行业竞争格局变化 - OpenAI从闭源收费模式转向开放协作生态 [6] - Meta考虑放弃开源策略 转向开发闭源模型 [9] - OpenAI采取员工信息保护措施 防止人才被挖角 [9] - 中国开源模型的爆发式发展触动OpenAI和硅谷神经 [1][9]
Claude 小升级就赢了OpenAI 9年“开源神作”?高强度推理直接歇菜、幻觉率高达50%,写作还被Kimi 2吊锤?
36氪· 2025-08-06 15:32
值得一提的是,几乎与 gpt-oss 开源同时,谷歌 Deepmind 宣布推出 Genie 3 ,Anthropic 放出了 Claude Opus 4.1。有网友感叹,"我们生活在什么样的时 代。"马斯克也转发了这条帖子,并配了意味深长的词和表情。 刚刚,OpenAI 发布了首个开源语言模型系列 gpt-oss,包括 gpt-oss-120b 和 gpt-oss-20b 两款语言模型:完全可定制,提供完整的思维链(CoT)并支持结 构化输出。 现在,gpt-oss-120b 和 gpt-oss-20b 的权重均可在 Hugging Face 上免费下载,且它们原生采用 MXFP4 量化格式。这使得 gpt-oss-120B 模型可在 80GB 内存 内运行,而 gpt-oss-20b 仅需 16GB 内存。 下载链接:https://huggingface.co/collections/openai/gpt-oss-68911959590a1634ba11c7a4 Github 地址:https://github.com/openai/gpt-oss Claude Opus4.1 的最大亮点在于编程性能提 ...
OpenAI、谷歌等深夜更新多款模型 展示开源、智能体、世界模型进展
第一财经· 2025-08-06 12:59
大模型厂商新品发布 - AI创业公司Anthropic发布Claude Opus 4 1 称该模型是Opus 4在代理任务 现实世界编码和推理方面的升级版 [1] - 谷歌推出新一代世界模型Genie 3 这是公司第一个支持实时交互的世界模型 [1] - OpenAI开源gpt-oss-120b和gpt-oss-20b两个推理模型 这是OpenAI时隔六年再次开源模型 [1] OpenAI开源策略转变 - OpenAI开源的gpt-oss-120b参数量为1170亿 采用MoE架构 激活参数量51亿 [2] - gpt-oss-20b参数量为210亿 同样采用MoE架构 激活参数量36亿 [2] - gpt-oss-120b在竞赛编码 工具调用基准测试中的得分接近或超过闭源的o4-mini模型 [2] - gpt-oss-20b在基准测试中的分数与o3-mini相当或超过o3-mini [2] - 新模型可在电脑 手机等端侧设备上本地部署 gpt-oss-120b可在单张80GB容量的GPU上运行 gpt-oss-20b可在16GB内存的消费级设备上运行 [2] Anthropic产品策略调整 - Anthropic决定更频繁地推出产品渐进式更新 而非只专注于重大版本更新 [3] - Claude Opus 4 1在深入研究 数据分析 代理搜索方面的能力较前一代有所提升 [3] - 新产品擅长处理复杂的多步骤问题 被定位为更有效的AI智能体 [3] - 在SWE-bench Verify基准测试中 Claude Opus 4 1得分74 5% 超过Opus 4的72 5% [4] - 在Terminal-Bench GPQA Diamond MMMLU基准测试中的得分分别为43 3% 80 9% 89 5% 超过Opus 4的39 2% 79 6% 88 8% [4] 谷歌世界模型进展 - 谷歌推出通用世界模型Genie 3 是公司第一个允许进行实时交互的世界模型 [5] - Genie 3可以生成多样化的交互环境 模拟水 光等自然现象 生成包含动物 植物的生态系统 创造动画角色并模拟复杂环境下各种元素的相互作用 [5] - Genie 3可以以每秒24帧的速度进行导航 在720p分辨率下保持长达几分钟的画面一致性 视觉记忆可追溯至一分钟前 [5] - Genie 3可生成长达几分钟的画面一致性 而Genie 2只能生成8秒 [6] - Genie 3可模拟灯光节期间在水面上行驶的摩托艇 效果十分真实 [6]
OpenAI、谷歌等深夜更新多款模型,展示开源、智能体、世界模型进展
第一财经· 2025-08-06 12:49
OpenAI产品策略变化 - OpenAI时隔六年再次开源模型,推出gpt-oss-120b和gpt-oss-20b两个推理模型,参数量分别为1170亿和210亿,均采用MoE架构 [1][2] - 开源策略转变源于DeepSeek引领的开源趋势,CEO表示推出强大开源模型"非常重要",这两款模型是耗资数十亿美元的研究成果 [1] - gpt-oss-120b在竞赛编码、工具调用基准测试中接近或超过闭源o4-mini,gpt-oss-20b与o3-mini相当或更优,性能属开源模型第一梯队 [2] - 新模型支持端侧设备本地部署,gpt-oss-120b可在单张80GB GPU运行,gpt-oss-20b可部署在16GB内存消费级设备甚至手机 [2] Anthropic产品策略变化 - 公司改变以往专注重大版本更新的策略,转向更频繁推出渐进式更新,此次发布Claude Opus 4.1并计划未来几周推出更多更新 [3] - Claude Opus 4.1在代理任务、现实世界编码和推理方面升级,擅长处理复杂多步骤问题,定位为更有效的AI智能体 [1][3] - 在SWE-bench Verify测试中得分74.5%超过前代72.5%,Terminal-Bench、GPQA Diamond、MMMLU测试分别达43.3%、80.9%、89.5%均超前代 [4] - 用户反馈显示代码修改精准度和调试效率明显改善 [4] 谷歌世界模型进展 - 推出首个支持实时交互的通用世界模型Genie 3,被视为迈向AGI的关键垫脚石 [5] - 可生成多样化交互环境,模拟水、光等自然现象及生态系统,动画角色和复杂元素相互作用,画面一致性达几分钟 [5] - 相比Genie 2的8秒画面一致性,Genie 3能生成长达几分钟的720p画面,视觉记忆可追溯一分钟前 [5][6] - 演示显示可模拟摩托艇撞击效果、生成推进视角的教室场景等高度逼真交互 [6] - 仍存在动作空间有限、多智能体交互模拟困难、交互时长不足数小时等局限 [9] 行业技术趋势 - 大模型能力持续升级,通过开源端侧部署模型、推进智能体技术、实现世界模型交互等方式提升可用性 [9]