开源大模型

搜索文档
欢迎OpenAI重返开源大模型赛道,谈一谈我关注的一些要点
36氪· 2025-08-06 15:55
美国西海岸时间2025年8月5日,OpenAI发布了两款开源大模型——GPT-OSS 120B以及GPT-OSS-20B, 目前这两款模型均可以从Hugging Face平台下载,用户可以对其进行修改定制和商业应用。包括亚马逊 AWS、微软Azure在内的主流云平台也已经开始提供基于这两款模型的服务。这是自从2019年11月以 来,OpenAI第一次发布开源大模型。 历史真是讽刺。OpenAI的名称来源,就是"开放""开源",这曾被Sam Altman自诩为AI时代的核心精神 和生存之道。可是从2019年初开始,OpenAI就处心积虑地偏离了开源轨道:那年2月,它以"安全问 题"为借口,拒绝公布GPT-2的全部参数权重,只公布了一个7.74亿参数的"部分模型";直到当年11月, 在GPT-2乏人问津的情况下,它才羞羞答答地公布了全部15亿参数。至于后来大放异彩的GPT-3、GPT- 3.5以及GPT-4系列大模型,则既没有公布过参数权重,也没有公布过技术路线白皮书。 截止昨天,OpenAI成为了当今全球AI大模型基础研发第一集团当中,寥寥几家"没有任何新版开源大模 型"的开发者之一。还有一家是Anthropi ...
OpenAI重返开源大模型赛道,谈一谈我关注的一些要点
虎嗅· 2025-08-06 15:03
开源大模型发布 - OpenAI于2025年8月5日发布两款开源大模型GPT-OSS 120B和GPT-OSS-20B 用户可通过Hugging Face平台下载并修改定制或商业应用 主流云平台包括亚马逊AWS和微软Azure已提供基于这两款模型的服务 这是OpenAI自2019年11月以来首次发布开源大模型[1] 历史背景与行业对比 - OpenAI名称原意为"开放"和"开源" 但自2019年初起偏离开源轨道 2019年2月以安全问题为由拒绝公布GPT-2全部参数权重 仅公布7.74亿参数部分模型 同年11月才公布全部15亿参数 后续GPT-3、GPT-3.5及GPT-4系列均未公布参数权重或技术白皮书[1] - 截至发布时 OpenAI与Anthropic是全球AI大模型基础研发第一集团中仅有的两家未发布新版开源模型的开发者[2] - 竞争对手普遍采用开源策略 谷歌2024年起维持开源Gemma系列与闭源Gemini系列并行 Meta的LLaMA系列是主流开源模型精神源头 法国Mistral首版模型即开源 马斯克Grok成立之初即开源 阿里巴巴Qwen成为衍生版本最多的开源模型之一 DeepSeek依靠开源获得巨大影响力[2] 开源动机与客户价值 - 开源模型支持本地部署 客户数据可完全存储在本地 最大限度保护国家机密和商业机密的数据安全[3] - 客户可基于自身需求对开源模型进行微调 尤其契合医疗、金融等复杂或敏感行业的特定应用场景[4] - 预算有限客户在本地硬件运行大模型可能比购买闭源模型使用权更经济 GPT-OSS-20B甚至可运行于笔记本电脑[5] - 本地部署需客户自行负责信息安全和技术维护 但许多大型行业客户仍偏好开源模型 LLaMA系列在欧美深受大企业欢迎 DeepSeek因开源特性快速覆盖国内政企客户[6] - OpenAI重返开源战场部分受LLaMA、DeepSeek、Qwen及Grok等开源模型刺激 但商业角度决策不可避免 因部分企业及政府部门永远不可能将关键数据上传第三方平台[6] 行业格局变化 - 2025年成为"开源之年" 国内百度与国外OpenAI均发布开源模型 Meta发布最新开源版本 阿里加快开源版本发布速度[7] - 全球主流大模型开发商中仅Anthropic和字节跳动未发布开源版本 字节跳动豆包大模型尚无开源计划 且技术不属于全球第一集团 开源与否对技术进步影响有限[7] 技术细节与性能 - GPT-OSS两个版本训练数据截止2024年6月 训练完成于2024年8月 性能大致与四个月前发布的GPT-4o3及o3 mini可比[8] - GPT-OSS-120B表现优于DeepSeek和Qwen最新版本 但仅证明OpenAI相对竞争对手仍有数月领先优势 未提供新信息[8] - GPT-OSS采用混合专家架构 GPT-OSS 120B每层128个专家 20B每层32个专家 每个路径激活4个最擅长专家[9] - 模型在标准文本基础上训练 思维链架构于后训练阶段实现 与竞争对手一致[10][11] - 后训练阶段采用CoT RL技术 使用外部API及RAG Agents 基本证实外界猜测[12] - OpenAI未在后训练阶段压制大模型幻觉 因会降低CoT透明度 GPT-OSS深度推理模式幻觉率较高[13] - 公布技术路线大部分已被外界猜测或争辩 技术细节如后训练具体手段或带来有限启发[14] 开源局限性 - GPT-OSS仅为"开放权重"模型 非完整开源 公布内容仅包括参数权重、34页技术白皮书及少量选择性信息[14] - 缺失关键复刻环节 包括训练中使用的脚手架模型 语料质量检测 清洗模型 人类价值观对齐Reward模型等[14] - 未公布预训练阶段语料库 Meta曾部分公布LLaMA语料但OpenAI未披露[15] - 训练过程使用的独家工具即便披露名称也无法模仿[16] - 商业公司几乎不可能发布全面开源模型 因开源目的为满足客户需求及培育生态 而非方便抄袭[16] 算力与训练细节 - GPT-OSS基于英伟达H100 GPU训练 120B版本消耗210万H100小时 20B版本消耗35万H100小时[17] - 以30天训练时间推算需2917张H100 以45天推算需1944张 训练数据截止2024年6月且完成于7月底或8月初 训练时间不太可能明显超过45天[17] - 模型未使用最新Blackwell系列GPU 也未使用万卡集群或更大规模集群[17] - GPT-4参数规模达1.37万亿 是GPT-OSS十倍以上 算力需求远超GPT-OSS 宝贵B100/200 GPU可能完全用于GPT-4.5及GPT-5训练[17] - GPT-OSS可能是OpenAI最后几个用Hopper架构GPU训练的模型之一 GPT-4.5后模型可能完全基于Blackwell训练 退役H100将转而承担推理任务[18] - 深度推理模型普及推动推理需求爆发 全球算力仍需增长3-4倍以满足训练及推理需求[18]
狂揽70亿挑战DeepSeek,AI创企被曝新融资,被英伟达押宝,团队大牛云集
36氪· 2025-08-05 16:12
融资与估值 - 美国Agent创企Reflection AI正洽谈筹集超10亿美元(折合人民币约71.8亿元)资金,用于开发开源大模型,已筹集到大部分金额 [2] - 今年3月公司获得1.3亿美元(折合人民币约9.3亿元)风险投资,红杉资本、CRV、英伟达风险投资部门NVentures等参投 [3] - 公司最新估值为5.45亿美元(折合人民币约39.1亿元),10亿美元融资完成后的估值尚未明确 [3] 创始团队与背景 - 创始团队由前谷歌DeepMind两位研究科学家约安尼斯·安东诺格洛和米沙·拉斯金于2024年创办 [2] - 安东诺格洛在谷歌DeepMind任职12年,曾参与AlphaGo、AlphaZero、MuZero及谷歌Gemini模型开发 [5] - 拉斯金是前谷歌Gemini核心负责人,领导谷歌强化学习和大型语言模型方向 [7] - 团队成员来自谷歌DeepMind、OpenAI和Anthropic,研究领域涵盖大型语言模型、强化学习和Agent [9] 业务布局与产品 - 公司目标构建超智能自主系统,专注自主编程以推动超级智能发展 [4] - 首款编程Agent Asimov已发布,可读取、编写、测试和部署代码,已从企业获得少量收入 [2] - Asimov可分析企业数据生成代码,已集成至金融服务、科技等领域的工作流程 [11] - 红杉资本称Asimov帮助开发者提升10倍工作效率,开发者青睐度高于Cursor Ask、Cloude Code [12] 开源模型战略 - 公司计划拓展开源AI模型开发,瞄准中国企业需求激增的市场机会 [16] - 开源模型成本更低、灵活性更高,可针对特定业务流程微调 [16] - 目前LMArena榜单前30开源模型无美国开发者产品,多为中国模型如阿里通义、DeepSeek、Kimi K2 [16] - 创始人计划将公司打造为美国领先的开源AI模型提供商 [18] 行业动态 - 开源模型热潮催化美国AI公司加快布局,OpenAI计划今夏发布开源模型 [16] - Meta正招聘人才改进模型,可能转向闭源模型开发 [16] - 模型训练成本高昂,OpenAI预计今年投入超70亿美元,2026年达170亿美元 [19]
GPT-5发布前,Anthropic对OpenAI封锁API;特斯拉被曝拖欠账款致两小企破产;人均在职7个月?字节回应|AI周报
AI前线· 2025-08-03 13:33
OpenAI动态 - OpenAI未来几个月将发布大量新东西,包括新模型、新产品和新性能等 [2] - GPT-5即将发布,但外媒报道其未取得技术突破,面临数据瓶颈和技术难题 [3][5] - 疑似GPT-5开源版本gpt-oss-120b(1200亿参数)在社区短暂出现后被删除 [6] - OpenAI被Anthropic切断API访问权限,因违反服务条款使用Claude进行竞争性比较 [7][8][9] - ChatGPT付费企业用户数量从6月的300万增长至超过500万 [37] 行业竞争与人才流动 - Meta以超高薪酬挖角AI人才,向12名TML员工提供最高10亿美元报价但遭拒 [18][19] - 苹果一个月内被Meta挖走4位AI研究员,包括关键研究员和团队负责人 [20] - 微软与OpenAI就未来技术使用权进行深入谈判,确保长期合作 [17] - OpenAI多名核心研究者被Meta挖走,导致内部组织架构混乱 [5] 公司财报与业务 - 微软第四财季收入764亿美元(+18%),净利润272亿美元(+24%),Azure收入同比增长34% [16][17] - Meta计划2025年资本支出660-720亿美元,2026年将继续大幅增加AI基础设施投入 [19] - 海康威视披露海康机器人IPO进程,称其收入和利润在行业中领先 [15] 技术创新与产品发布 - 智谱发布GLM-4.5模型,采用MoE架构,总参数量3550亿,API调用价格低至0.8元/百万tokens [30] - 阶跃星辰开源Step 3模型,总参数量321B,在多项评测中领先 [32] - 字节跳动Seed团队发布扩散语言模型Diffusion Preview,代码推理速度达2146 tokens/s [29] - 小米AI眼镜将推出支付宝扫码支付功能,搭载高通骁龙AR1芯片 [25][27][28] 行业数据与趋势 - 中国大模型应用个人用户注册总数超过31亿,API调用用户总数超过1.59亿 [24] - 开源成为大模型厂商证明能力的方式,近期多个厂商发布开源模型 [32] - 浙江大学发布"悟空"类脑计算机,支持超20亿个脉冲神经元 [33]
影视ETF(516620)上涨1%,AI应用与暑期档成行业双主线
每日经济新闻· 2025-08-01 14:55
行业观点 - 传媒行业明线为AI应用起势 暗线为内容输出带来的文化自信[1] - 看好今年成为中国开源大模型的爆发及应用格局重塑之年[1] - 电影行业在重点单片驱动下景气度向上 受《南京照相馆》等单片驱动大盘边际改善明显[1] - 后续仍有大单片待映 看好大盘持续性[1] - AI短剧等进展较快[1] ETF表现 - 影视ETF(516620)上涨1%[1] - 跟踪中证影视指数(930781)[1] - 指数从A股市场选取涉及影视内容制作、发行、放映及相关服务的上市公司证券作为样本[1] - 成分股覆盖影视全产业链 具有较强的行业代表性[1]
影视ETF(516620)涨超2.4%,AI应用与暑期档成行业双主线
每日经济新闻· 2025-07-30 13:27
传媒行业投资机会 - 行业明线为AI应用起势,暗线为内容输出带来的文化自信,看好今年成为中国开源大模型的爆发及应用格局重塑之年 [1] - 影视院线方面,重点单片驱动下景气度向上,受《南京照相馆》等单片驱动,大盘边际改善明显,看好大盘持续性 [1] - AI短剧等进展较快,暑期档总票房已突破49亿元,连续9天单日票房过亿,市场热度显著回升 [1] - 游戏板块再次提示关注回调后的布局机会,Q3 AI产业较多催化,有望受益于配置资金 [1] 中证影视指数概况 - 影视ETF(516620)跟踪的是中证影视指数(930781),该指数从A股市场中选取涉及影视内容制作、发行及放映等相关业务的上市公司证券作为指数样本 [1] - 中证影视指数覆盖了影视行业的上下游产业链,具有较高的行业代表性和市场影响力,旨在捕捉中国影视娱乐市场的增长潜力和波动情况 [1]
游戏ETF(516010)涨超1.0%,市场关注行业政策支持与技术迭代
每日经济新闻· 2025-07-30 13:27
行业观点 - 传媒行业明线为AI应用起势 暗线为内容输出带来的文化自信 看好今年成为中国开源大模型的爆发及应用格局重塑之年[1] - 行业发展分为三步:第一步为公有云价值重塑+产业重回增长 第二步为有平台有用户有场景但缺少大模型能力赋能的企业 第三步为C端场景不断落地[1] - 游戏行业回调后存在布局机会 投流费用抵税问题对上市公司实际经营影响非常有限 Q3 AI产业较多催化 有望受益于配资资金[1] 指数产品 - 游戏ETF(516010)跟踪动漫游戏指数(930901) 该指数从沪深市场选取涉及动漫制作、游戏开发、发行运营及周边产品等业务的上市公司证券作为指数样本[1] - 指数聚焦动漫游戏行业的高成长性和创新性特征 涵盖从内容创作到衍生品开发的全产业链环节[1] - 无股票账户投资者可关注国泰中证动漫游戏ETF联接A(012728)和国泰中证动漫游戏ETF联接C(012729)[1]
我在WAIC看见的十大趋势
量子位· 2025-07-30 10:29
核心观点 - AI行业热度空前,WAIC展会呈现十大核心趋势,展现中国AI产业的快速发展和创新活力 [2][3][5] 十大核心趋势 趋势一:中国AI因DeepSeek而不同 - DeepSeek带来观念改变,AGI在中国被真正相信,中国人可能率先实现AGI [6] - DeepSeek-R1让普通人不再认为AI是"智障",唤醒中国AI创始人直接瞄准AGI [7] - 前谷歌CEO施密特等国际专家认可中国AI实力 [6] 趋势二:基础大模型综合实力比拼 - 基础大模型竞逐重点从SOTA转向推理、多模态和低成本 [8][9] - 阶跃星辰Step-3模型总参数321B,具备多模态推理能力,联合千里科技和吉利汽车落地智能座舱 [12] - 商汤日日新V6.5在多模态推理能力上表现优异,部分指标超过Gemini 2.5 Pro和Claude 4-Sonnet [14][15] - 讯飞深度推理X1升级版在幻觉治理、综合能力等方面有提升 [15] 趋势三:开源大模型进入中国时间 - 开源成为中国大模型领域的标配,通义千问是开源旗手 [17][18][21] - 阿里通义千问系列模型和通义万相2.2全部开源 [18][20] - 中国开源模型方阵蔚为壮观,包括基础大模型和垂直模型 [23][24][26] - 开源共识形成,中国可能成为AI时代的"安卓" [28][31] 趋势四:国产化AI生态闭环 - 国产芯片与国产大模型协同构建生态 [32][33] - 摩尔线程实现100token/s跑满血DeepSeek,推动AI训练向万卡级规模演进 [37] - 后摩智能发布能效比最高的存算一体AI芯片M50,功耗仅10W [39] - 中昊芯英发布中国首枚TPU架构高性能AI芯片"刹那®"和计算集群"泰则®" [41] - 联想、燧原科技等推出国产算力+国产模型的大模型一体机 [44][46] 趋势五:AI基建与垂直行业应用 - 华为展示昇腾384超节点真机,支持万张算力卡的数据中心 [51] - 中国电信展出五大技术体系,包括智传网、算网一体服务等 [53] - PPIO发布国内首个Agentic AI基础设施服务平台 [56] - 国家电网和南方电网展示电力行业大模型"大瓦特",机器人代人率达80% [60] - 蚂蚁数科推出金融大模型Agentar-Fin-R1,在金融基准测试中表现优异 [62] - 百度展示数字人技术NOVA,曾支撑罗永浩数字人直播间创5500万GMV [64] 趋势六:ToC创新与AI Agent - C端产品创新开始,AI Agent成为新风口 [66][67] - WPS发布原生Office办公智能体,通过自然语言完成文档创作等 [76] - 钛动发布全球营销AI Agent,赋能营销全链路 [77] - 深势科技发布通用科学智能体SciMaster,提供专家级科研助手 [79] - Agent被视为AI时代的软件形态产品,将革新各领域应用 [82][83] 趋势七:商业化AI终端 - 汽车、耳机和眼镜成为第一批商业化AI终端 [86][87] - 特斯拉、吉利等车企展示AI能力,座舱领域创新打开新增长空间 [88][90][94] - 讯飞AI耳机iFLYBUDS Pro 3和Air 2主打商务办公场景 [99][100] - AI眼镜备受关注,Rokid预定量达25万台,Halliday中国首秀 [104][105][107] - 夸克发布AI眼镜,集成阿里和支付宝生态 [109][110] 趋势八:具身智能机器人 - 具身智能机器人赛道白热化,今年实现大飞跃 [112][113] - 智元、银河通用、北京人形机器人创新中心等展示能走能动的机器人 [117][119][121] - 宇树科技通过"机器人打拳击"展示灵活运动能力 [129] - 戴盟聚焦触觉感知技术,展示精细化操作能力 [135][137][139] - 行业开始向人形收敛,VLA和世界模型成为共识 [133] 趋势九:非Transformer架构 - 非Transformer架构从学术研究进入产业应用 [144][145] - RockAI展示自研非Transformer架构驱动的机器狗和灵巧手 [146] - RWKV元我智能公开RWKV-7s架构,KV cache仅为MLA的1/9大小 [146] 趋势十:中国与硅谷AI差距 - 中国与硅谷AI差距缩短至6个月,集中在大模型先进技术层面 [154] - 发展目标转向AGI实现,而非追赶硅谷 [155] - 中国拥有发展AI的宝贵资源——人才和用户基础 [157][158]
中国平安再现外脑空降!王晓航任CTO,曾系蚂蚁集团副总裁
南方都市报· 2025-07-29 14:57
人事任命 - 公司聘任王晓航出任集团首席技术官兼平安科技总经理 [1] - 王晓航曾任职于谷歌、彭博、百度、蚂蚁集团等国际知名企业,在百度期间推动打造百度钱包和金融业务,在蚂蚁集团负责数字金融和AI创新,推出AI金融管家等生成式AI产品 [1] 战略方向 - 公司表示王晓航的加入有助于全面提升AI技术研发与应用水平,推动自研大模型与大数据开源平台深度融合发展 [2] - 公司将加快建设数字化经营、数字化运营、数字化管理、数字化营销、数字化服务五大体系 [2] - 公司深化"综合金融+医疗养老"双轮并行、科技驱动战略,加速推进全面数字化转型 [2] 技术布局 - 公司董事长马明哲强调人工智能已在主业各个环节全面铺开,2024年AI坐席服务量约18.4亿次,覆盖80%客服总量 [3] - 公司认为人工智能时代的关键因素包括数据、算法、算力、场景,并拥有深圳和上海两个大机房支持算力需求 [3] - 公司2024年底拥有超2.1万名科技开发人员、超3,000名科学家,累计获得人工智能竞赛冠军45项,专利申请数达55,435项 [3] 财务投入 - 公司一年利润超千亿,可大量投入科技领域 [3]
WAIC 2025|海外企业组团参展 AI朋友圈再扩容
新华财经· 2025-07-29 09:39
新华财经上海7月29日电(葛佳明) 作为全球人工智能领域的"全球交流盛会", 2025世界人工智能大会 暨人工智能全球治理高级别会议(WAIC)已是第八年在上海举办。与往年相比,本次大会吸引包括新 加坡、马来西亚、英国等多国企业参展,AI朋友圈持续扩大。 伦敦发展促进署大中华区首席代表赵冰冰在接受新华财经记者采访时表示,WAIC可以被视为全球企业 合作和交流的桥梁,一方面,今年有6家来自伦敦的科技公司首次"组团"参展,WAIC可以推动英国企业 进一步了解中国AI生态,找到本地合作方;另一方面,有出海意愿的中国企业则可以通过这一平台找 到合适的出海切入点,共同构筑起生态合作圈。 欧洲企业:来WAIC"交个朋友" 在超过7万平方米的展馆内,出现了越来越多的国外企业的身影,不少国家企业"组团"来WAIC"交个朋 友"。作为中国人工智能对外交流最活跃的舞台,WAIC正构筑起链接全球智慧的桥梁,在此次参展的超 800家企业中,上海市外及国际企业占比超50%。 以英国为例,赵冰冰直言,中国企业和英国企业在AI领域有巨大的合作潜力,主要体现在人才与研发 合作,金融与资本合作以及应用场景与技术结合这三方面,中国因其庞大的市场 ...