开源模型

搜索文档
开源模型三城记
虎嗅· 2025-07-30 09:58
中国开源大模型竞争格局 - 北京、上海与杭州形成三城演义格局 在AI开源领域展开激烈竞争[1] - 美国对中国开源技术栈日益忌惮 表现为白宫调整开源策略及OpenAI推迟开源模型发布[1] - 全球开源模型性能榜单头部已被中国模型霸占 包括K2、Qwen3-2507系列、Qwen3-Coder、Wan2.2、Step-3等[1] 杭州开源生态建设 - 阿里巴巴密集推出多款开源模型 包括Qwen3-Coder(4800亿总参数/350亿激活参数)、Qwen3-2507系列、Qwen VLo多模态模型及全球首个开源MoE视频生成模型[3] - 开源模型定价具备显著优势 Qwen3-Coder价格仅为Claude 4的1/3[3] - 采用差异化产品策略 区分非思考版Instruct与推理版Thinking模型以贴近社区需求[5] 技术创新突破 - Wan2.2首次将MOE架构引入视频生成 在推理成本不变前提下提升总参数规模[4] - K2采用重述法训练提升学习效率 效果比同一内容重复训练高出约5个百分点[9] - Step 3采用AFD技术实现注意力模块与前馈神经网络解耦 优化硬件适配效率[10] - GLM-4.5实现高效能输出 生成速度达100tokens/s且总参数量3550亿中仅激活320亿参数[11] 企业竞争动态 - DeepSeek引发行业飞轮效应 推动开源模型价格战与技术迭代[2] - 月之暗面发布K2模型并采用自研MuonClip优化器与QK-Clip技术[9] - 阶跃星辰推出Step 3多模态推理模型 总参数3210亿且具备视觉能力[10] - 智谱开源GLM-4.5系列模型 采用MIT许可证支持商业用途[11] 产业生态发展 - 阿里云通过开源策略扩大生态影响力 Qwen系列累计下载超4亿次衍生模型超14万个[13] - 开源成为人才吸引与文化构建方式 DeepSeek证明华人团队在AGI领域的创新贡献[14] - 上海大幅提升智算规划规模 从2025年30EFLOPS提升至2027年200EFLOPS(增长6倍)[15] - 腾讯加入开源竞争 在WAIC上开源混元3D世界模型并公布系列开源计划[16] 地缘战略意义 - 中国通过WAIC展示开源AI部署决心 提出打造跨国开源社区应对美国AI行动计划[16] - 开源模型成为国际软实力新杠杆 新加坡明确欢迎中国高性价比模型覆盖东南亚多语言市场[16] - 中国建立开源技术栈目标明确 力求在token经济层面与美国闭源模型竞争[19]
阿里通义大模型迎“周年庆”:一周开源4款模型
南方都市报· 2025-07-29 20:23
开源战略进展 - 公司正式发布通义大模型三周年 实现全尺寸和全模态全面开源 打破开源与闭源模型技术壁垒[1] - 近一周内连续发布并开源4款重磅大模型 包括7月28日开源的视频生成模型通义万相Wan2.2[1][3] 模型技术突破 - 通义万相Wan2.2开源三款视频生成模型 支持文生视频 图生视频和统一视频生成 可生成5秒高清视频并支持60多个可控参数[3] - 千问3基础模型获权威机构Artificial Analysis评为全球最智能非思考基础模型[3] - 千问3推理模型比肩顶级闭源模型Gemini2.5 pro和o4-mini 斩获推理模型全球开源冠军[3] - AI编程模型Qwen3-Coder在代码能力和Agent调用能力超越GPT4.1和Claude4 登顶Hugging Face总榜冠军[3] 市场反响与生态建设 - 千问API调用量三天突破1000亿Tokens 热度超越GPT Gemini和Claude等顶级模型 包揽OpenRouter趋势榜前三名[4] - 通义千问全球主要模型社区下载量突破4亿 衍生模型数量超过14万个 超越Meta的Llama系列成为全球第一开源模型家族[5] - 开源推动全球开发者众测反馈 直接获得数据和不良案例 加速模型迭代速度[5] 全栈AI能力展示 - 在世界人工智能大会全面展示从AI基础设施到大模型再到平台及应用的完整AI技术栈[4] - 开源战略使公司明确全球市场竞争中的生态位 获得直接技术反馈[5]
超越OpenAI、Meta,阿里千问API调用量跃居全球第四
经济观察网· 2025-07-29 20:18
全球大模型API市场份额 - 中国DeepSeek和阿里通义千问跻身全球前五 通义千问以10.4%市场份额超越OpenAI的4.7%位列第四 [1] 开源模型发展趋势 - OpenRouter平台API调用量榜单显示开源模型加速取代闭源模型 Top10大模型中9个为开源模型 [3] - Qwen3-Coder以近500亿Tokens调用量居首 通义千问包揽前三且前十占五席 [3] - 通义千问模型单周总调用量突破2000亿Tokens [3] 中国开源模型技术进展 - 阿里巴巴上周开源3款大模型 斩获基础模型/编程模型/推理模型三项全球开源冠军 [3] - 开源模型性能逼平Claude4/GPT4.1/o4-mini/Gemini2.5 pro等顶级闭源模型 [3] - 通义团队发布强化学习新算法GSPO 实现"周级迭代"开发加速度 [3]
一周四连发,阿里AI跑出飓风速度
36氪· 2025-07-29 16:48
阿里巴巴一口气连发四个开源模型,包括Qwen3系列Qwen3-235B-A22B-Instruct基础模型、Qwen3-Coder、Qwen3-235B-A22B推理模型和通义万相 Wan2.2。"开源"、"登顶"等关键词频频出现,"日更级"的节奏更是令世界瞠目结舌。 7月22日,阿里开源Qwen3-235B-A22B-Instruct,性能获得基础模型领域冠军,成为 "全球最智能的非思考基础模型"。 7月23日,阿里开源AI编程模型Qwen3-Coder,代码能力及Agent调用能力超越GPT4.1、Claude4等顶尖闭源模型,登顶全球最大开源社区HuggingFace模型 总榜冠军。 近一周,中国AI的速度与激情正在上演。 7月25日,阿里开源千问3推理模型性能比肩顶级闭源模型Gemini2.5 pro,斩获推理模型的全球开源冠军。 7月28日,阿里开源视频生成模型通义万相Wan2.2,共开源文生视频、图生视频和统一视频生成三款模型。 密集的技术迭代和突破,阿里用实际成果打破了"闭源模型是高性能代名词"的固有认知,重新定义开源模型的天花板。 技能突破:性能与开源的双重飞跃 短短四天时间,阿里三款开源模型 ...
湘财证券晨会纪要-20250728
湘财证券· 2025-07-28 10:58
核心观点 报告对宏观策略、北交所、电子、银行、医药、半导体等领域进行分析,认为 A 股市场总体呈“慢牛”态势,8 月或震荡下行调整;北交所流动性上升;电子、银行、医药行业有投资机会;迈富时公司发展前景良好 [5][7][9][19][23][30][36]。 宏观策略 宏观政策 - 2025.07.21 - 2025.07.25 公布公共财政支出、LPR 等宏观数据,6 月公共财政支出当月同比增速 0.38%,上半年累计增速 3.4%,上半年财政收支差额累计 - 25,705.00 亿元高于 2024 年同期,7 月 LPR 保持不变,1 年期 3.00%,5 年期 3.50%,符合市场预期 [2]。 沪深股市 - 2025.07.21 - 2025.07.25,6 个 A 股指数震荡上行,上证指数涨 1.67%、深证成指涨 2.33%等,周振幅最大的是科创综指 4.36% [3]。 - 近期市场上行动力来自雅鲁藏布江下游水电工程推动基建板块及科技板块发力,二季度宏观数据略超预期,上半年 GDP 累积同比增长 5.3%,大盘短期调整压力上升,但总体保持“慢牛”态势 [5]。 - 31 个申万一级行业上周涨多跌少,建筑材料、煤炭周涨幅居前,银行、通信居后;124 个申万二级行业(扣除林业)小金属、水泥周涨幅居前,农商行Ⅱ、股份制银行Ⅱ周跌幅居前 [5][6]。 - 投资建议:长维度 A 股市场大概率“慢牛”运行;中维度关注科技、绿色、消费、基建领域;短维度 8 月市场大概率震荡下行调整,建议关注长期资金入市红利板块及消费相关板块 [7]。 北交所 市场总览 - 截至 2025 年 7 月 25 日,北交所 268 家股票上市交易,本周新增 0 家;总股本均值 378.77 亿股无变化,总自由流通股本均值 151.44 亿股增 0.18%,总市值均值 8520.87 亿元增 2.36%,总自由流通市值均值 3255.09 亿元增 3.00% [9]。 流动性 - 本周北交所流动性较前一周明显上升,总成交量均值 14.27 亿股,上升 39.13%;总成交额均值 310.82 亿元,上升 42.36%;算术平均换手率均值 7.04%,上升 1.98 个百分点;按总市值加权平均换手率均值 6.49%,上升 1.76 个百分点 [10]。 行情及指数走势 - 268 只股票中 190 只上涨,恒立钻具涨幅最高 184.05%,*ST 云创跌幅最高 10.61%;254 只股票累计上涨,星图测控涨幅最高 1317.79%,14 只累计下跌,连城数控跌幅最高 76.19% [11]。 - 7 月 25 日,北证 50 收盘 1458.98 点,涨 2.85%;北证湘财研究全指数收盘 1835.28 点,涨 3.09% [11]。 分行业 - 上周 268 只股票涉及 24 个申万一级行业,建筑装饰、医药生物涨跌幅靠前,交通运输、石油石化靠后 [12]。 估值表现 - 北证 50 当前估值(PETTM)68.19 倍,科创 50 为 143.58 倍,沪深 300 为 13.59 倍;2022 年 4 月 29 日以来,北证 50 处于 95%估值分位数,科创 50 处于 99%,沪深 300 处于 100% [13]。 行业公司 电子 - 市场表现:上周中证人工智能产业指数报收 1479.24 点,涨 1.72%;国证算力基础设施主题指数报收 5805.86 点,涨 3.23%;万得智能体概念指数报收 1897.37 点,涨 2.62% [14]。 - 估值:上周中证人工智能产业指数 PE(TTM,剔除负值)为 41.06X,环比上升 1.03X,PB(LF)为 5.10X,环比上升 0.13X,PE 处于近 7 年 45.89%分位数,PB 处于 52.66%分位数 [16]。 - 行业动态点评:通义千问更新 Qwen3 模型,通用能力显著提升,在多语言长尾知识覆盖等方面进步,长文本提升到 256K,开源模型能力接近顶尖闭源模型,有望推动 AI 应用加速发展 [17][18]。 - 投资建议:看好 AI 基建、端侧 SOC、AI 应用投资机会,维持电子行业“增持”评级,AI 基建关注寒武纪等,端侧 SOC 关注瑞芯微等 [19]。 银行业 - 信贷流向重点支持领域:实体经济融资成本降低,1 - 6 月新发放企业贷款加权平均利率约 3.3%,个人住房贷款利率约 3.1%;重点领域信贷增长快,5 月末普惠小微贷款等均高于全部贷款增速;消费金融有望温和复苏 [21]。 - 投资建议:银行信贷有望平稳增长,息差或趋稳,资产质量将巩固,建议从“高股息 + 区域增长”配置银行股,维持行业“增持”评级 [23]。 医药行业 - 核心要点:关注细分 ADC CDMO 机遇,CXO 板块补涨动力足,全球 ADC 药物市场爆发式增长,催生全链条产业机遇,ADC 技术壁垒高,CDMO 服务成刚需,传统小分子企业布局 ADC CDMO,XDC 开辟新蓝海 [25][26][27]。 - 投资建议:维持医疗服务“买入”评级,建议关注具有 ADC 相关技术储备的 CDMO 公司药明康德等 [30]。 半导体 - 迈富时公司:AI + SaaS 战略驱动平台化、一体化发展,2024 年 AI + SaaS 业务收入 8.42 亿元,占营收 54%,服务客户超 26,600 户,2025 年推动产品升级;精准营销业务构建一站式服务体系,2024 年收入 7.16 亿元,占营收 46% [32][34]。 - 投资建议:预计 2025 - 2027 年公司归母净利润及增速,首次覆盖给予公司“买入”评级 [36]。
中国开源AI三连发,爆击美国闭源高墙
搜狐财经· 2025-07-26 21:16
阿里巴巴AI模型发布 - 公司在2025年7月22日至26日连续发布三款AI模型,包括Qwen3基础模型、Qwen3-Coder编程模型和Qwen3推理模型 [3] - 三款模型分别斩获基础模型、编程模型、推理模型等主流领域的三项全球开源冠军 [3] - Qwen3基础模型被权威AI研究机构Artificial Analysis评为"全球最智能的非思考基础模型" [6] - Qwen3-Coder编程模型使新手程序员一天能完成资深程序员一周的工作,生成品牌官网最快仅需5分钟 [9] - Qwen3推理模型性能比肩Gemini-2.5 pro、o4-mini等顶尖闭源模型 [3][9] 技术实力与市场表现 - 公司AI模型API调用量在过去几天突破1000亿Tokens,在OpenRouter趋势榜上包揽全球前三 [11] - 阿里云AI相关收入连续七个季度保持三位数增长 [12] - 公司运营着中国最大、亚太第一规模的AI基础设施,具备从硬件到软件的垂直整合能力 [11] - 通义实验室是中国AI人才最密集、AI产出最丰厚的AI Lab [12] 开源战略 - 公司本周发布的三款模型全部开源,目前已有三百多个重要模型对外开源 [13][14] - 开源模型可供中国企业免费商用,美国、法国、德国等发达国家的公司也能接入 [14] - 公司开源战略与"让天下没有难做的生意"的愿景一脉相承 [14] - Qwen3-Coder的开源掀起"AI编程"热潮,获得推特创始人和Perplexity CEO等业内人士点赞 [14] 行业竞争格局 - 中国AI开源模型(阿里通义千问、deepseek)与美国闭源模型(GPT、Claude、Gemini)形成对比 [13] - 公司计划未来三年投入3800亿元人民币建设云和AI硬件基础设施,总额超过去十年总和 [15] - 2008年公司提出"去IOE"战略,用云计算替代传统IT架构 [15] - 公司被视为中国参与全球AI全栈体系竞争的重要选手 [15]
实测爆火的阶跃星辰Step 3,性能SOTA,开源多模态推理之王
机器之心· 2025-07-26 16:19
核心观点 - 阶跃星辰在WAIC 2025发布新一代开源多模态基座模型Step 3,性能超越同类开源模型并接近顶尖闭源模型[1][2] - Step 3以"多开好省"为核心设计理念,解决AI商业化应用的三大瓶颈:推理成本高、场景适配难、多模态能力调用不全[7][8][11] - 模型在国产芯片上实现突破性成本优化,推理效率达竞品3倍,为国产算力生态注入强心剂[32][47][52] - 公司联合10家芯片厂商成立"模芯生态创新联盟",推动底层技术协同创新[51][52][59] - 2025年上半年智能终端业务环比增长超800%,预计全年收入近10亿元[54][55] 技术架构 - 采用原创MFA架构:多矩阵分解注意力设计,KV量仅为Qwen GQA的1/3,计算量仅为DeepSeek MLA的1/4[29][31][32] - MoE混合专家架构:总参数量321B(LLM 316B+视觉编码器5B),激活参数量38B,性能对标DeepSeek[33][34][35] - AFD分布式推理方案:比DeepSeek"大EP"模式更先进,实现Attention与FFN计算资源精准匹配[38] - 原生多模态设计:支持文本/视觉输入,具备深度推理能力,在MMMU等基准超越ERNIE 4.5等竞品[39][41] 性能表现 - 基准测试:在MMMU、MathVision等多项多模态基准超越开源竞品[1][41] - 实测案例: - 准确完成"视觉称重"任务,识别三花猫品种并估算体重[14][15] - 解析"Who's Adam?"网络热梗,总结AI研究者审稿质量焦虑[16][17] - 根据主机贴纸照片完成复杂空间推理[19] - 实时识别桌游"Splendor"并处理对话打断[25][26] - 效率指标:国产芯片推理成本为行业领先开源模型的1/3,Hopper架构芯片吞吐量提升70%[18][47] 商业化进展 - 智能终端:Top10国产手机厂商过半已合作,多模态能力落地量产旗舰机型[54] - 汽车领域:端到端语音大模型在吉利银河M9首发上车,联合发布智能座舱Agent OS[54] - 生态布局:与华为昇腾、沐曦等10家芯片厂商成立创新联盟,推动算力-模型协同优化[51][52] - 收入增长:2025H1智能终端调用量环比增800%,全年收入预计10亿元[54][55] 战略演进 - 产品迭代路径:Step-1对标GPT-3.5→Step-2逼近GPT-4→Step-3聚焦商业化效率[45][46] - 行业定位转变:从"多模态卷王"(20/26款为多模态模型)转向推理时代"最优解"提供者[57][58] - 商业模式创新:通过技术而非补贴实现成本革命,避免API价格战[44][59]
开源Qwen一周连刷三冠,暴击闭源模型!基础模型推理编程均SOTA
量子位· 2025-07-26 13:06
模型性能突破 - 通义千问开源Qwen3-235B-A22B-Thinking-2507推理模型,在MMLU-Pro(84.4)、GPQA(81.1)、AIME25(92.3)等基准测试中超越DeepSeek-R1和OpenAI o4-mini,登顶开源SOTA [3][10][12][15] - 新模型在"人类最后考试"HLE测试得分从11.8提升至18.2,超越DeepSeek-R1(17.7)和o4-mini高性能模式(18.1) [13][14] - 支持256K原生上下文,在逻辑推理、数学、编码等复杂任务中性能显著提升,编程能力超越Gemini-2.5 Pro等闭源标杆 [16][17] 开源战略布局 - 一周内连续开源Qwen3基础模型(235B参数)、Qwen3-Coder编程模型和Qwen3-235B推理模型,形成技术矩阵 [6][22][26] - Qwen3-Coder在SWE-bench测试中达到69.6分,超越Claude Sonnet 4(70.4)和DeepSeek-V3(38.8),刷新AI编程SOTA [26][27] - 基础模型Qwen3-235B-A22B-Instruct-2507在GPQA、LiveCodeBench等12项测评中超越Claude4非思考版,登顶开源第一 [32] 市场影响与行业地位 - 通义千问API调用量突破1000亿Tokens,在OpenRouter平台包揽全球前三热门模型 [31] - 阿里已开源300余款大模型,通义千问衍生模型突破14万个,超越Llama成为全球最大开源模型家族 [37] - 公司计划未来三年投入3800亿元建设AI基础设施,持续升级全栈能力 [38] 中国开源生态崛起 - DeepSeek、Qwen、Kimi等中国开源模型引领全球风潮,在Llama4表现不佳后成为行业新标杆 [34][35] - 中国开源模型发展速度被黄仁勋公开认可,技术差距与闭源模型快速缩小 [36][39] - 开源三连击战略使中国AI技术首次实现在基础模型、编程模型、推理模型三个维度同时达到世界前沿水平 [7][33][37]
硅谷华人能不能站起来把钱挣了?
虎嗅· 2025-07-25 07:24
美国AI行业动态 - 马斯克旗下XAI发布grok4模型 部分能力显著提升但编程能力仍有局限 写作能力出现倒退[1] - Meta人工智能部门进行大规模重组 高薪引进新人才同时裁撤原有团队 核心团队44人中至少50%为华人[4][6] - 美国AI行业炒作热点从AGI(通用人工智能)转向SSI(超级人工智能) 概念定义模糊但商业价值显著[22][24] Meta技术路线调整 - Llama系列开源模型表现下滑 从Llama3开始被中国开源模型超越 Llama4因应对竞争仓促调整导致性能不佳[2][3] - 原首席科学家Yann LeCun被替换 因其公开质疑当前大模型架构无法实现AGI 主张需要全新架构[6] - 新任AI部门主管Alexander Wang来自Scale AI(数据标注公司) 缺乏大模型研发经验引发行业质疑[7][8] 中美AI竞争格局 - 中国开源模型如DeepSeek冲击美国闭源商业模式 通过开源降低行业利润 公布推理过程实现技术祛魅[25][26] - 美国AI企业高度依赖华人人才 Grok4团队几乎全为华人 顶级AI会议参会者至少50%为华人[10][12] - 部分美国企业采取技术封锁策略 Llama3/4刻意弱化中文支持 政治因素影响技术决策[12][16] 行业人才结构 - Meta新组建团队包含大量OpenAI/DeepMind前员工 22位研究科学家中有14位华人 主要毕业于清华/MIT/斯坦福等名校[5][6] - 美国AI领域存在显著族裔不平等 华人技术贡献与职业地位不匹配 高管层仍以白人为主[10][11] - 英伟达等芯片企业同样依赖华人人才 黄仁勋公开承认这一事实[12] 开源与闭源之争 - Meta可能放弃开源路线 转向闭源开发 中国成为开源生态主要维护者[16][31] - 美国企业开发"符合价值观"的基准测试(如R1-1776) 将技术问题政治化[19][26] - 开源模式冲击闭源商业逻辑 迫使OpenAI等公司提高免费用户额度[31]
21对话|全球网络峰会创始人:中国正在赢得科技竞赛
21世纪经济报道· 2025-07-24 10:06
美股科技股表现 - 美股"七巨头"(英伟达、微软等)股价和市值持续刷新历史新高,4月至7月资金以16年来最快速度涌入美国科技股 [1] - 目前美股"七巨头"在标普500的市值占比已达到三分之一 [1] AI领域竞争格局 - 硅谷巨头难以长久维持技术领先,AI未来属于开源模型,DeepSeek的出现预示这一趋势 [1] - 中国在AI学术研究文献引用量全球领先,美国排名第二,且美国高质量AI研究中近三分之一引用来自中国 [3][4] - 闭源大模型难以持续发展,中国AI公司坚持的开源模式是正确方向 [4] - 西方投资者吹捧的"数十亿甚至万亿美金"AI造富神话难以长期维系 [4] 全球科技竞争态势 - 在《自然》杂志研究领导者榜单中,中国有7所科研院校进入前十,美国仅1所,四五年前中国仅2所 [5] - 中国在先进材料、通信、AI、能源等50多个关键科技领域占据主导地位,美国仅在8%-9%领域领先 [5] - 中国科研投入增速亮眼,企业将利润再投资于研发和设备采购,而西方企业更多用于股票回购等短期操作 [6] 能源与汽车行业 - 中国转向可再生能源与清洁技术,发展中国家清洁技术投资增长迅猛,中国是该领域领头羊 [7] - 中国商飞是重要初创企业,未来中国飞机有望进入全球市场,提供更便宜、燃油效率更高的机型 [12] - 中国新能源汽车行业竞争激烈,虽然未来市场会集中,但目前竞争推动创新和定价能力 [15] 航天与通信技术 - 中国在低轨卫星领域有潜力,早期部署的卫星具备更强数据传输能力和更快速度 [12] - 中国在激光信息光传输技术领先,未来可能出现多家中国公司与SpaceX星链竞争 [12] 行业泡沫风险 - 西方对AI过度依赖和看重存在泡沫化趋势,"FIRE"行业(金融、保险、房地产)也存在泡沫 [13] - 中国制造业广泛应用工业机器人,在该领域引领全球发展,这是中国制造保持竞争力的原因之一 [13] 市场竞争格局 - 中国市场参与者众多推动创新潜力,如汽车产业竞争将公司创新和定价能力推向极限 [15] - 西方国家市场集中度高,各行业公司数量处于历史低点 [15]