Workflow
Qwen系列模型
icon
搜索文档
林俊旸卸任,对阿里可能不是坏事
虎嗅APP· 2026-03-04 18:00
核心事件:阿里巴巴Qwen技术团队负责人林俊旸卸任 - 32岁的阿里巴巴Qwen技术团队负责人林俊旸于3月3日在X平台宣布卸任 [4] - 林俊旸是阿里“青训出身”的技术精锐,毕业于北京大学计算机专业,以应届生身份加入阿里巴巴达摩院 [4] - 他于2025年5月晋升为P10,是阿里最年轻的P10之一,晋升与宣布卸任发生在同一年 [5] 林俊旸的个人价值与贡献 - 林俊旸是少有的具备“技术视角、产品和团队视角且具备传播能力”的三合一年轻人才,对主打开源的团队具备稀缺价值 [7] - 2024年后,其最重要的工作是Qwen系列模型开源及主导开源社区运营,是阿里技术高管中在海外X平台最活跃的账号 [5] - 他经常在凌晨于X和GitHub上与开发者交流,亲自操作官方账号互动,其个人特点是Qwen在开源社区获得好感的因素之一 [6] - 在他的工作下,Qwen系列模型在开发者社区的下载量从2024年的超过2亿,增长至2025年的超过10亿;衍生模型数突破20万个 [6][7] - 阿里内部对基础模型团队的核心考核维度是“模型影响力”,包括开发者社区受欢迎度(如下载量)和衍生模型数量 [5] 阿里AI战略的转变与背景 - 2026年,阿里有两场关键战役:以千问APP为主的C端AI入口之战,以及以淘宝闪购为主的外卖即时零售大战 [8] - 战略核心是通过千问APP作为AI入口为整个阿里电商生态引流,并基于千问APP重构阿里电商既有的商业模型 [9] - 这旨在解决Qwen模型的痛点:其商业化能力或“实用能力” [9] - AI行业评估已进入“商业化考量”新周期,在SOTA(追求顶尖性能)阶段存活下来的公司开始比拼以SOTA为前提的商业化能力 [9][10] - 用户需求已从“尝鲜”进入“实用”阶段,资本市场对AI模型公司商业化能力的重视度大幅上升 [10] 组织架构调整与潜在分歧 - Qwen正在推动内部架构调整,从林俊旸负责整个团队,转变为不同的技术模块平行团队,以实现更精细化的功能拆分和权责清晰 [14] - 调整目的包括更精准定位问题环节,以及将有限资源投入到当下更需要的模块中 [14] - 有知情人士透露,林俊旸在2025年升职后,希望为Qwen争取更多资源用于具身智能、智驾等多个研发方向 [15] - 但有高话语权人士更倾向于聚焦于模型能力本身,先将Qwen在SOTA角度做到极致 [15] - 另有第三方人士认为,林俊旸与高话语权人士在AI技术路线、Qwen与AI C端业务协同上存在不同看法 [15] 事件影响与反思 - 事件可能引发阿里高层对年轻人才培养制度的反思 [16] - 90后精锐已成为阿里当下的骨干力量,他们的性格特质及随之而来的组织文化和氛围,被认为是阿里打好硬仗的关键基础 [16] - 从公司视角,需要一个能够和千问APP更“丝滑”合作的Qwen技术团队负责人 [14]
阿里云份额扩大至36%,云市场又要变天了?
雷峰网· 2026-02-12 18:12
文章核心观点 - 中国云市场正因AI驱动发生结构性变化,市场需求向头部高度集中,导致市场份额出现“剪刀差”式分化 [18] - 阿里云市场份额在2025年第三季度从33%跃升至36%,其增长动力主要源于AI带来的结构性新增量,而非存量搬迁 [3][6][9] - AI时代云计算的竞争门槛被重塑,算力、全栈自研带来的成本优势以及开源模型生态构成了头部厂商的核心护城河,并可能决定第二梯队厂商的未来 [19][20][29][30] 市场格局与增长动力 - 2025年第三季度中国大陆云基础设施服务市场规模达134亿美元,同比增长24%,增长主要由AI驱动 [15] - 阿里云市场份额增长3个百分点至36%,而同期华为云份额从18%下滑至16%,腾讯云从10%下滑至9% [3][17] - 市场增长动力已从互联网流量红利和传统企业上云迁移,转向AI带来的结构性新增量 [5][9] - AI需求正从单点试水(如API调用)进化为系统重构,企业对算力、存储、数据库等云基础设施形成高密度、持续性消耗 [11] 阿里云的增长策略与护城河 - **大规模算力投入**:公司宣布未来三年将投入3800亿元建设AI基础设施,一年的投入可能超过过去十年1300亿元的总和,使其能提供“千卡、万卡集群”的现货供应能力 [20][21] - **全栈自研的成本优势**:通过“芯片(平头哥)+平台(阿里云)+模型(通义实验室)”全栈自研(通云哥),实现了对GPU等资源的极致优化,可为客户降低10%-30%的综合成本 [22] - **开源生态的入口优势**:通义千问全系模型累计下载量突破10亿次,通过魔搭社区构建生态闭环,将开发者与潜在客户沉淀至其云平台,形成正向飞轮 [23][24][25] - **AI驱动的飞轮效应**:AI拉动GPU算力(2025年上半年营收增长超100%),算力消耗产生海量数据进而拉动数据库与存储产品增长,最终数据资产沉淀形成高客户粘性与迁移成本 [15] 行业案例与趋势验证 - **行业应用案例**:阿里云与钢铁材料设计大模型(预测精度最高达90%)、科沃斯(支撑全球3800万家庭实时智能体验的云上推理集群)、万豪、广汽、海尔(构建专属RAG系统与向量数据库)的合作,展示了AI对云基础设施的全面消耗 [14] - **全球市场镜像**:谷歌云2025年第四季度收入同比激增48%至176.64亿美元,全年营收突破700亿美元,未履行订单达2400亿美元(同比增长超一倍),其增长同样由企业AI基础设施需求驱动,验证了头部虹吸效应的全球普适性 [27][28] - **产业规律验证**:阿里云与谷歌云的份额增长(后者从10%升至14%)表明,AI时代在算力与模型维度建立领先优势的厂商,能够启动市场份额的虹吸效应正循环 [29]
清程极智:大模型 API 正通过提升个人效率,穿透商业服务全链路
新浪财经· 2026-02-10 11:19
行业核心观点 - 清程极智与华清普智AI孵化器发布《大模型 API 服务行业分析报告(2025)》,分析了大模型API在内容创作、代码开发、专业服务等领域的应用及对工作生活的影响[1][3] - 报告核心观点认为,大模型API通过赋能个体、提升个人效率,穿透商业服务全链路,最终成为企业降本增效的核心引擎与关键抓手[2][6] 代码开发领域应用 - 开发者日常最耗时的三项工作为代码补全、Bug调试、多文件理解,这些任务呈现“短输入、中等输出”的特征,对模型的上下文稳定性与响应速度提出双重挑战[1][3] - GLM、DeepSeek系列模型API凭借其代码能力与长上下文优势,正成为开发者首选的效率工具[1][3] - 该领域API调用量呈现独特的“夜间双峰”分布,峰值出现在21-23点及凌晨1-2点,与程序员专注攻坚的时间吻合,API成为开发者的“深夜debug搭子”[1][5] 内容创作与营销领域应用 - 在内容创作与营销领域,大模型已成为“创意搭子”,用于文案、方案的快速生成,以及内容营销中的扩写、风格化产出[1][5] - 此类任务需要做好上下文铺垫并支撑长篇内容生成,对token消耗规模和生成质量要求较高[1][5] - Kimi系列、MiniMax系列模型在该场景中表现出色,使用占比尤为突出,帮助开发者节省大量重复创作时间,使营销内容更具新意[1][5] 专业服务与办公自动化应用 - 专业服务与办公自动化场景,如法律、财务文档处理、知识翻译、商业数据分析等,更看重“稳”与“快”[2][5] - 相关任务多为中短输入、中等输出的交互式操作,对响应时延和稳定性极为敏感[2][5] - 合同审查、数据透视、知识检索等高频率、低创造性的繁琐工作正被智能工具接管[2][5] - 开发者更偏爱使用Qwen系列、MiniMax系列模型来实现办公流程的自动化升级,从而使专业服务更高效、更精准[2][5]
千问的出圈绝非偶然!这是阿里全链布局 + 场景融合的生态爆发
犀牛财经· 2026-02-09 23:27
活动表现与市场反响 - 千问App“春节30亿大免单”活动上线首日,9小时内AI订单突破1000万单,服务器一度因“超预期火爆”而卡顿 [2] - 活动采用下载即送25元免单卡的简单直接玩法,兑现门槛低,金额大,例如6口之家可快速获得275元无门槛免单卡,相当于84杯蜜雪冰城柠檬茶 [3] - 该活动成为2026年春节AI大战中现象级爆火破圈的案例 [6] 竞争策略与差异化路径 - 相较于腾讯、百度延续“现金换流量”的思维,千问采取差异化路径,用30亿元“买用户习惯”,培养用户“有事找AI”的习惯 [3][4] - 与其他大厂单兵作战不同,千问在1月15日便接入了淘宝闪购、支付宝、淘宝、飞猪、高德等阿里生态场景,将补贴转化为真实的用户体验和消费场景 [4] - 公司策略旨在通过春节档投入,完成AI生活和购物的全民科普,推广用户通过AI表达意图、辅助决策、完成交易的全新消费体验 [4] 生态优势与业务闭环 - 公司拥有覆盖“衣食住行娱”的全场景服务基建,包括电商、本地生活、出行、酒旅等,为千问提供了有力的业务兜底 [6] - 千问定位为AI时代的核心入口和超级Agent,通过高频活动(如茶饮外卖)引流,再利用AI承接和解析用户需求,通过阿里生态内业务落地“办事”需求,形成“奶茶引流,AI承接”的生态闭环 [5][6] - AI agent与淘宝闪购、淘天等消费场景的融合,赋予了千问进行持久战的底气与意义 [6] 技术投入与全栈布局 - 2025年2月,公司宣布未来三年在AI和云计算投入超3800亿元,并可能根据市场需求进一步增加投资 [7] - 在芯片层,平头哥“真武”PPU采用自研技术,内存达96G HBM2e,片间互联带宽700GB/s,已在云上实现多个万卡集群部署,服务超400家客户 [7] - 在云与基础设施层,公司从计算、网络、存储三个维度全面重构了AI基础设施,例如灵骏集群支持10万卡稳定互联 [7] - 在模型层,Qwen系列已成为全球第一开源模型家族,截至2025年,其衍生模型数量突破20万个,下载量突破10亿次,超越Meta的Llama系列 [7] - 千问App的火爆是公司20年技术长周期投资与全生态布局的集中兑现,完成了从芯片到云到应用的全链条布局 [8] 行业趋势与公司定位 - 大模型行业面临Chatbot用户粘性下降、商业化路径收窄的窘境,尤其是B端企业需要能替代人力、完成业务流程的“数字员工” [9] - 人们对AI从“知道”到“做到”的需求催生了AI Agent爆发,2024年全球AI Agent市场规模达52.9亿美元,预计到2030年将飙升至471亿美元,年复合增长率高达44.8% [9] - 千问App的成绩单标志着AI Agent从“知道”到“做到”的愿望照进现实,在AI竞赛下半场,能让AI成为日常生活默认选项的公司将赢得下一个十年 [9] - 公司AI战略清晰,从理念到执行形成闭环,强调技术服务于人、呵护人间烟火,由真实行为选择驱动AI普及 [10] - 此次春节活动的成功验证了该路径的可行性,公司被视为已经拿到了AI时代的船票 [10]
阿里发布千问旗舰推理模型Qwen3-Max-Thinking,性能媲美GPT-5.2、Gemini 3 Pro
华尔街见闻· 2026-01-26 23:27
模型性能与行业地位 - 公司于1月26日正式发布千问旗舰推理模型Qwen3-Max-Thinking,该模型创下数项权威评测全球新纪录 [1] - 新模型性能媲美GPT-5.2、Gemini 3 Pro,成为迄今为止最接近国际顶尖模型的国内最强AI大模型 [1] - 新模型总参数规模超万亿,通过更大规模的强化学习后训练及推理技术创新,实现了模型性能的大幅飞跃 [1] 开源生态与开发者采用 - 根据Hugging Face最新数据,Qwen系列衍生模型数量已突破20万,成为全球首个达成此目标的开源大模型 [1] - Qwen系列模型总下载量突破10亿次,平均每天被开发者下载110万次 [1] - Qwen系列模型下载量稳居全球开源大模型TOP1位置 [1]
国产AI大模型企业密集上市:资本狂欢下的技术博弈与产业未来
搜狐财经· 2026-01-22 17:54
文章核心观点 - 2025年见证了国产AI大模型企业的密集上市潮,标志着中国在全球人工智能竞赛中进入了全新的资本化阶段[2] - 国产AI大模型企业在技术突破、政策支持、市场需求及国际竞争等多重因素驱动下快速发展,但同时也面临严峻的商业化盈利挑战和成本压力[6][7][8][14][16] - 资本市场对AI企业的估值逻辑正在发生变化,更看重技术壁垒、生态价值和长期潜力,而非短期财务表现[18] - 未来几年,AI大模型行业将经历商业化验证、产业成熟到生态繁荣的演进,技术将持续向多模态融合、边缘计算和具身智能等方向突破,并深刻重塑产业生态与社会结构[22][23][24][26][28][29] 上市潮全景:哪些AI大模型企业正在登陆资本市场? - **头部企业资本化**:2025年第一季度以来,超过十家中国大型语言模型研发企业提交招股书,上半年IPO募集资金总额超过300亿元人民币[2] - **深度求索**:2025年3月向港交所提交上市申请,估值突破120亿美元,2024年研发投入42亿元人民币,占总收入的85%,其下一代模型DeepSeek-V3参数规模达3.2万亿[3] - **智谱AI**:选择科创板上市,其GLM-4 Turbo模型在中文任务上表现超越国际同类产品,采用“B2B2C”轻资产商业模式[3] - **月之暗面**:以支持128K tokens的“长上下文窗口”技术建立壁垒,最新一轮融资获8亿美元,投后估值达65亿美元[4] - **垂直领域先锋**:医疗AI领域的推想科技和科亚医疗、金融AI领域的蚂蚁智科、教育AI领域的作业帮“银河大模型”和好未来“MathGPT”等均寻求上市或独立融资[13] - **地域与政策**:企业上市聚集于北京、上海、深圳,三地政府分别推出“AI大模型创新示范区”、“大模型算力补贴”、“AI芯片与大模型协同发展基金”等扶持政策[5] 资本热度攀升:数据背后的驱动逻辑 - **投资数据**:2024年中国AI领域投资总额达2150亿元人民币,其中大模型及相关应用占比超60%,投资规模较2023年增长75%[6] - **投资结构变化**:Pre-IPO轮平均融资额从2023年的5.2亿元增至2024年的8.7亿元,增幅67% 早期投资占比从2022年的35%降至2024年的18%,而成长期和Pre-IPO投资占比从45%升至62%[6] - **技术突破驱动**:国产大模型在中文理解评估基准CLUE榜单前十中占据八席,部分模型代码生成任务HumanEval通过率超85%,接近GPT-4水平[7] - **政策红利释放**:2024年7月国家发改委等五部门发文支持AI企业上市融资,10月证监会优化了科技企业上市标准[7] - **市场需求增长**:预计2025年中国AI大模型市场规模达147亿美元,2023-2027年复合增长率38.5% 企业端AI技术采纳率从2022年的22%快速提升至2024年的47%[7] - **地缘政治因素**:美国对高端GPU出口限制升级,加速了资本向国产大模型及AI芯片的倾斜,创造了国产替代的战略窗口期[8] 技术博弈:国产大模型的核心竞争力分析 - **架构与算法创新**:百度ERNIE架构将知识图谱与预训练结合 阿里Qwen系列引入“稀疏注意力”机制,将长文本处理效率提高3倍[9] - **训练方法创新**:智源研究院“FlagAttention”技术将万亿参数模型训练成本降低40% 商汤科技“SenseNova”框架支持混合精度与动态弹性计算[9] - **多模态能力融合**:腾讯“混元大模型”在视觉-语言多模态任务突出 字节跳动“云雀大模型”支持长达1小时视频的语义分析[10] - **AI芯片突破**:华为昇腾910B芯片性能达英伟达A100的80% 寒武纪“思元590”芯片针对大模型训练优化[11] - **算力集群建设**:国家超算中心联合企业建立的国产算力训练集群总算力规模达10EFLOPS 上海人工智能实验室“OpenXLab”平台降低中小企业算力门槛[11] - **软件栈生态**:华为MindSpore、百度飞桨、阿里巴巴灵积等框架初步形成全栈国产AI生态[11] - **中文数据与场景优势**:国产模型通过大规模高质量中文语料预训练和文化常识注入,在中文处理上建立优势 普遍采用“通用底座+行业精调”策略深耕金融、法律等垂直领域[12] - **隐私与安全合规**:国产大模型设计符合《网络安全法》、《数据安全法》等中国法规,在政企市场形成重要竞争优势[12] 商业化挑战:盈利之路与可持续发展 - **主流盈利模式**:API服务收费(如智谱AI的GLM-4 Turbo API价格约为GPT-4 Turbo的60%) 企业级定制化解决方案(客单价数百万元至数千万元) 开源基础模型+商业版授权模式[14] - **硬件一体化方案**:将大模型与AI服务器、边缘计算设备结合,在智能制造、智慧医疗等场景具有优势[15] - **高昂的训练成本**:训练一个万亿参数大模型需约5000-8000张高端GPU运行2-3个月,仅电力成本超2000万元人民币,采用英伟达H100集群单次训练成本可能高达1.2亿元[16] - **持续的推理成本**:以月活1亿的对话应用为例,若用户日均交互10次,每次消耗500 tokens,每日推理成本可能超300万元[16] - **攀升的人才成本**:大模型算法工程师平均年薪80-150万元,首席科学家薪酬包普遍在500万元以上[16] - **商业化进度差异**:已提交上市申请的AI大模型企业中,仅15%在最近财年实现盈利,亏损企业平均亏损额达收入的1.8倍[17] 资本市场反应:估值逻辑与投资风险 - **新兴估值框架**:技术壁垒评分法(技术得分权重超40%) 生态价值评估(如GitHub star数) 算力资产重估 商业化潜力折现(通常采用30-50%高折现率)[18] - **二级市场表现**:百度、阿里股价在AI概念推动下,2024年以来分别上涨42%和38% AI芯片企业寒武纪上市首日涨156%,随后三个月回调65% AI算力指数在2024年累计上涨72%[19] - **企业梯队划分**:领先梯队(百度、阿里、腾讯等巨头,年收入10-50亿元,多处于亏损或微利) 成长梯队(智谱AI、深度求索等初创企业,年收入1-10亿元,亏损率30-50%) 早期梯队(垂直领域初创企业,年收入不足1亿元,依赖融资)[20] 未来趋势:技术演进与产业重塑 - **技术发展方向**:模型架构可能向“神经符号AI”和“世界模型”变革 多模态融合向“全感知AI”发展 边缘计算与轻量级大模型结合,“端云协同推理”成主流 “具身智能”将大语言模型与机器人技术结合[22] - **产业生态重构**:算力民主化进程加速,分布式算力网络出现 高质量数据要素市场形成 基于大模型的“AI原生应用”大量涌现 “自然语言编程”降低开发门槛,推动全民开发者时代[23] - **社会影响与挑战**:大模型将替代部分脑力劳动,同时创造提示工程师、AI训练师等新职业 可能扩大数字鸿沟,需确保技术普惠性 AI伦理与治理需求凸显,可解释AI、AI对齐等技术将更重要[24] - **行业阶段展望**:2025-2026年为商业化验证期,行业整合加速 2027-2028年为产业成熟期,AI成为企业基础设施,可能出现千亿美元市值平台企业 2029年及以后为生态繁荣期,AI深度融入经济社会,通用人工智能愿景初步显现[26][28][29]
AI与机器人盘前速递丨阿里千问稳居全球开源大模型TOP1,Cybercab与Optimus初期量产将缓慢
每日经济新闻· 2026-01-22 09:54
市场表现 - 科创人工智能ETF华夏(589010)于1月21日上涨2.74%,收报1.610元,其跟踪指数开盘冲高后震荡上行,持仓股涨多跌少,30只成分股中有20只上涨,其中澜起科技以11.90%领涨,全天成交额达1.45亿元,换手率为5.49% [1] - 机器人ETF(562500)于同日上涨1.73%,收报1.116元,盘面探底后震荡回升,66只成分股中有46只上涨,天智航以12.38%领涨,全天成交额达14.70亿元,换手率为5.57% [1] - 机器人ETF(562500)是全市场唯一规模超两百亿、流动性最佳、覆盖中国机器人产业链最全的机器人主题ETF [4] 行业动态 - Hugging Face数据显示,Qwen系列开源大模型的衍生模型数量已突破20万,成为全球首个达成此目标的开源大模型,同时该系列模型下载量突破10亿次,平均每日下载110万次,稳居全球开源大模型首位 [2] - 马斯克表示,其公司旗下的Cybercab自动驾驶出租车和Optimus人形机器人的初期生产速度将“极其缓慢”,之后逐步提升,Cybercab计划于2026年启动大规模量产,Optimus人形机器人则“有望”在2026年底开启量产 [2] - 豪恩汽电在互动平台表示,公司与英伟达合作开发的机器人域控大脑产品目前处于正常开发阶段,将在产品完善及客户需求确定后推出,该产品暂未形成收入 [2] 产品与指数 - 科创人工智能ETF华夏(589010)被描述为“机器人的大脑”,具有20%涨跌幅及中小盘弹性,旨在捕捉AI产业“奇点时刻” [4] - 随着成分股调整落地,机器人ETF(562500)跟踪的中证机器人指数中,人形机器人相关含量已提升至近70%,此次调仓实现了“去弱留强” [4] 机构观点 - 国投证券认为,人工智能应用领域正在快速发展,不仅在理论研究和技术创新上取得显著突破,更在各行各业的应用中展现出强大的生命力和广阔的市场前景 [3]
AI技术突破与法律困局,2026年五大趋势背后的机遇与挑战
搜狐财经· 2026-01-11 22:46
中国开源AI模型崛起 - 中国开源模型正在改写全球竞争格局,例如DeepSeek-R1模型将开源做到了极致[4][6] - 阿里巴巴的Qwen系列模型下载量达到885万次,相当于全球每三个AI开发者中就有一个在使用[6][8] - 中国开源模型使得美国初创公司面临战略困惑,有硅谷工程师表示使用中国模型进行修改比自己从头开发节省半年时间并大幅降低成本[10] - 中美模型之间的技术差距正在缩小,中国在部分细分领域已具备竞争力,其开源策略带来了显著的信任优势[12] AI监管与政治博弈 - 美国AI监管呈现联邦与州政府之间的博弈,特朗普政府行政命令延缓了各州AI法律的实施[14][16] - 监管不确定性给企业带来负担,有AI公司抱怨需同时遵守两级法规[17][19] - AI行业游说活动激增,去年游说费用较前年增长三倍[19] AI驱动的商业应用变革 - AI正在改变购物领域,Salesforce预测今年假日购物季AI驱动的消费额将达到2630亿美元[21] - 麦肯锡预测到2030年,代理式商业规模将达到3至5万亿美元[23] - Google Gemini和OpenAI等公司正将AI深度集成至购物体验中,例如聊天机器人可帮助挑选礼物和议价[23] AI加速科学发现 - AlphaEvolve系统将大语言模型与进化算法结合,解决了多个生物领域的难题[25] - 该技术催生了多个开源版本,如OpenEvolve和SinkaEvolve[27] - 认知科学方法提升了AI的创造力,科学家利用AI生成实验方案以提升效率[27][29] AI引发的法律与责任挑战 - AI责任问题成为焦点,例如OpenAI面临与自杀案相关的诉讼,引发关于AI诱导行为的争议[31] - 监管政策影响司法,特朗普的行政命令也影响了法院对AI相关案件的考量[31][33] - 新的法律问题涌现,包括AI生成内容是否构成诽谤以及自动驾驶事故的责任归属[33] 全球AI格局演变 - 2026年AI发展的五大趋势相互影响,共同塑造未来:中国开源模型崛起、全球监管博弈、购物生态变革、科学发现加速、法律挑战升温[33][35] - 全球科技格局正从硅谷单极主导转向多极化,中国和欧洲正在争夺话语权[35][37] - AI发展同时带来解决重大全球性问题的机遇和引发失业、隐私泄露等风险的挑战[37][39]
在这个开源「从夯到拉」榜单,我终于明白中国 AI 为什么能逆袭
新浪财经· 2025-12-17 22:25
文章核心观点 中国开源大模型在2024年至2025年间实现了全球范围内的领导地位,以DeepSeek、Qwen、Kimi、智谱和MiniMax为代表的国产模型,在性能、价格、生态和可用性等维度上快速逼近甚至超越闭源巨头,正在改变全球AI行业的格局和运行规则 [3][5][116] 全球开源模型排名与格局演变 - 根据AI研究员Nathan Lambert等人的排名,全球开源模型前五名均为中国公司:DeepSeek、Qwen、Kimi、智谱和MiniMax,而OpenAI仅位列第四梯队,Meta的Llama仅获荣誉提名 [3][114] - 2024年曾是Llama主导的天下,但到2025年,国产开源模型已成为全球开发者的默认选择,持续刷新行业选项 [5][116] - 在Hugging Face的热门模型趋势榜上,前四名均为国产开源模型 [86][89] 主要中国开源模型厂商及其技术亮点 - **DeepSeek**:通过混合注意力等机制显著降低成本,打开了高效推理的突破口 [29][98] - **Qwen(阿里巴巴)**:凭借庞大的生态规模,覆盖从4800亿参数到6亿参数的各种尺寸模型,以及视觉语言、代码编写等多领域,几乎渗透整个开源市场 [23][131] - **Kimi(Moonshot AI)**:2025年11月发布万亿参数的混合专家模型Kimi K2 Thinking,采用交错思考技术,一次性能执行300次工具调用,在多个榜单上超越GPT-5和Claude 4.5 [11][122][135] - **MiniMax**:2025年10月底发布MiniMax M2混合专家模型,在综合榜单排名第五,超越Gemini 2.5 Pro和Claude Opus 4.1,其API定价为每百万输入/输出token 0.3美元/1.2美元 [14][124][127][185] - **智谱(Zhipu AI)**:发布GLM系列模型,如GLM-4.5和GLM-4.6,丰富了国产开源生态 [9][10][120] 国产开源模型的竞争优势与市场反馈 - **性能与成本**:国产模型在保持高性能的同时,具备极具竞争力的价格,例如MiniMax M2的价格仅为Anthropic Sonnet模型的1/12 [127][185] - **开发者认可**:海外社交媒体上广泛认可国产模型“好用、便宜”,成为小公司和副业项目的开发首选 [14][124] - **企业应用**:爱彼迎CEO公开表示,中国的开源模型Qwen比OpenAI更适合其实际工作,且更便宜 [25][134] - **具体能力展示**:实测显示,MiniMax M2能一次性生成功能齐全的棋类应用或网站,在处理包含20714个岗位、大小10MB的Excel数据时也表现出色 [16][18][30][35][138][141] 技术路径选择:全注意力与高效注意力之争 - MiniMax M2选择了传统的“全注意力机制”,而非当前流行的稀疏或高效注意力机制,主要原因是全注意力在工业级系统中的性能和可靠性仍然更高 [38][75][144][181] - 高效注意力机制(如线性、稀疏注意力)的核心目标是节省有限的计算资源,但其在复杂推理任务中可能存在隐藏缺陷,且相关基础设施尚不成熟 [41][44][57][147][150][163] - 随着上下文长度需求增长和GPU算力增速放缓,高效注意力的优势未来可能显现,但当前阶段,在质量、速度、价格三角中寻求平衡是关键 [62][75][168][181] 国产开源崛起的驱动因素与行业影响 - **内部竞争与算力限制**:国内模型厂商众多、竞争激烈,且面临算力紧张、芯片受限的困境,开源成为共享算力、避免重复建设、吸引开发者的有效策略 [93] - **构建完整生态**:各厂商通过不同的技术路线(如DeepSeek的成本控制、Qwen的生态规模、MiniMax的智能体能力)共同构建了一个庞大而完整的开源系统,形成了合力 [29][84][97][98] - **改变全球格局**:国产开源模型已成为全球AI生态的底座,全球小团队使用Qwen微调、用DeepSeek做推理基座、用MiniMax做智能体验证已成为常态,导致全球开源生态中心向中国倾斜 [98][109] - **数据佐证**:a16z数据显示,国产开源模型的累计下载量已超过美国模型,且领先优势持续扩大;斯坦福大学2025年AI指数报告也预示国产开源性能将超过闭源和美国模型 [95][97]
中信建投 | 阿里AI模型:产品矩阵丰富,开源生态卡位B端份额
新浪财经· 2025-12-04 19:28
核心观点 - 阿里巴巴依托Qwen大模型底座实现业务全面重塑,并通过开源策略与强劲性能加速构建其在B端(企业级)市场的生态壁垒 [2][42] - 公司坚定上修资本开支以应对旺盛的算力需求,云收入持续高增长,验证了“基础设施投入-技术迭代-商业变现”的闭环逻辑 [2][42] 模型布局与开源战略 - 阿里AI模型布局较早,已实现“全尺寸”、“全模态”、“多场景”覆盖,模型尺寸覆盖0.5B至万亿参数 [4][43] - 截至2025年10月,Qwen系列在两年多时间内迭代了三个大版本和多个小版本,广泛布局文本、数学、代码、多模态等垂直场景 [3][43] - 阿里是国内大厂中唯一坚持开源战略的厂商,2023年8月开源Qwen-7B模型,成为国内首个开源自研模型的大厂 [4][43] - 截至2025年9月底,阿里自2023年以来累计开源Qwen系列模型357个,其中2024年上半年71个,下半年120个,2025年以来157个,更新频率自2024年下半年以来显著加速 [6][45] - 2025年9月,阿里密集更新了包括Qwen3-Max-Preview在内的6个模型,并在云栖大会上一次性更新了Qwen Max等7个模型,单月合计发布模型数量达13个 [6][45] 模型能力与行业地位 - 阿里模型能力位列全球第一梯队,与海外头部厂商的技术差距已由最初的6个月以上缩短至约3个月 [12][51] - 在国内市场持续领跑,以2025年7月22日发布的Qwen3 235B为例,其能力与DeepSeek-V3.1 Terminus基本相当,但发布时间早约2个月 [12][51] - 在开源阵营内领先,2024年9月19日发布的Qwen2.5 Instruct-72B为国内模型首次超越海外模型(Llama 3. Instruct 405B) [12][51] - 细分能力方面,Qwen3-Max-Preview在LMarena评测中总排名第七,其数学能力排名第一,硬提示、编程、指令遵循、长序列、多轮对话能力分别排名第六、第五、第七、第六、第五 [18][57] 商业化进展与生态构建 - 凭借开源战略和强劲模型性能,截至2025年云栖大会,阿里通义系列模型已完成6亿次下载,衍生模型达17万个,服务超过100万家客户 [35][74] - 阿里旗下魔搭社区是国内最大的AI开源社区,截至9月底,社区模型数量已突破10万,服务全球200多个国家超过1800万用户,并提供5000多项MCP服务 [35][74] - 截至2025年上半年,阿里通义以17.7%的份额位列中国企业级大模型市场占有率第一 [30][69] - 公司已形成B端+C端的完整布局,并于2025年11月17日上线千问APP,对标ChatGPT布局C端,旨在整合通义、夸克等原有C端产品能力,打造完整生态体系 [36][75] 开源战略的动因与市场机遇 - 公司选择开源战略,参考了安卓通过开源超越iOS的历史路径,认为当开源产品的体验或性能达到闭源水平时,将迎来市场份额超越的拐点 [22][24][61][63] - 调研显示,41%的企业表示会在开源模型性能匹配闭源模型时切换,另有41%表示将增加开源模型使用 [25][64] - 企业倾向于使用性能更高的模型,61%的用户会因性能更换模型 [25][64] - 国内模型市场对开源接受程度更高,考虑到企业对于原厂模型的使用粘性(66%的企业在模型升级时会选择原厂),以阿里为代表的开源厂商能够先占据市场份额,再提升性能构建护城河 [30][32][69][71] - 已有海外企业如爱彼迎公开表示大量依赖阿里通义千问模型,主要因其比OpenAI更好更便宜 [25][64] 未来展望 - 目前阿里各垂直模型已基本完成基于Qwen3的升级,后续重点在于Qwen3-Next(相当于Qwen3.5)正式版本的发布,以及基于此对垂直模型的优化 [21][60] - Qwen4按时间推算可能在2026年第二季度发布 [21][60] - 公司预计将保持模型更新频率以完善各领域布局,在保持开源阵容领先的同时,进一步缩短与海外厂商前沿模型的时间差距 [21][60] - 随着开源模型能力不断逼近甚至未来可能超越头部闭源模型,将加速对企业客户的渗透,并有可能逐步突破海外市场 [32][71]