Workflow
大模型开源
icon
搜索文档
林俊旸提出离职后,阿里高管紧急答疑丨36氪独家
36氪· 2026-03-04 22:40
阿里AI团队核心人物离职引发动荡 - 2026年3月4日凌晨,阿里千问大模型技术负责人、开源核心推手林俊旸突然宣布离职,引发行业震动,团队内部情绪低落[6][12][15] - 林俊旸生于1993年,是阿里最年轻的P10之一,自2022年起接手Qwen团队,被评价为“一个人就值一亿美金”的顶尖人才[6][13][15] - 除林俊旸外,包括代码方向负责人惠彬原、后训练研究负责人郁博文、核心贡献者Kaixin Li在内的多位核心成员也相继提出离职[14][15][17] 阿里紧急召开会议回应团队调整 - 3月4日下午,阿里集团CEO吴泳铭、首席人才官蒋芳、阿里云CTO周靖人等高管紧急召开All Hands会议,回应团队质疑[7][8] - 高层定性此次调整为“团队扩张”,旨在扩充人才和资源,并承认在沟通和组织形式处理上存在不足[8] - 高层强调千问基础模型是集团“当前最重要的事情”,大模型竞争是“整个阿里集团的事”,目标“一定要超越”[9] 团队调整背后的战略与组织矛盾 - 调整前,Qwen团队拥有独立的预训练、后训练、Infra及多模态团队,林俊旸曾推动内部多模态团队融合以提升效率[11] - 本轮调整计划将Qwen团队按技术维度拆分,与通义实验室其他团队(如万相、百聆)合并,但因沟通不足引发矛盾[11] - 此次动荡源于公司AI战略快速变化与基础模型团队目标出现差距,核心成员对资源投入和模型路线选择存有疑问[7][22] 阿里AI的资源困境与竞争压力 - Qwen团队在资源远少于竞争对手的前提下取得成绩,团队仅100多人,算上通义实验室整体为数百人规模[7][23] - 作为对比,字节跳动负责基础模型训练的Seed团队已近2000人,阿里在算力、Infra建设和招聘名额上均感捉襟见肘[9][23] - 自2023年以来,Qwen家族累计开源超过400个模型,涵盖0.5B到235B参数规模,但支撑更新的主力团队规模有限[23] 阿里的开源战略与商业挑战 - 阿里通过早期、坚定的开源战略,使Qwen成为“开源模型第一家族”,建立了良好的开发者生态和口碑[13][21] - 开源模型服务了阿里云生态,通过企业选用和购买模型服务间接转化为商业收入,但商业逻辑难以量化[21] - 在闭源旗舰模型方面,阿里2025年发布的Qwen 3/3.5系列虽处第一梯队但已有吃力之势,面临来自字节、腾讯等对手的激烈竞争[21][23] 后续人事安排与行业影响 - 接替林俊旸后训练工作的新成员是来自Google DeepMind的周浩,他曾在Meta工作3年,是Gemini 3.0模型的核心贡献者[16][18] - 林俊旸的离职在AI社区引起巨大轰动,海外开发者纷纷表达感谢,有投资人认为核心团队离开可能导致Qwen模型发展延误半年到1年[12][15] - 截至文章发布,阿里巴巴高层仍在与林俊旸密切沟通,其最终去向尚未确定[16]
阶跃星辰全面开源 Step 3.5 Flash:OpenClaw 调用量飙升至 Top2
IPO早知道· 2026-03-04 13:19
阶跃星辰最新开源举措 - 公司继开源Step 3.5 Flash模型后,进一步开源了该Agent基座模型的预训练权重、中训练权重以及配套的Steptron训练框架 [2] - 在当前大模型开源趋于保守的环境下,此次彻底的开源举动在开源社区引发热烈反响 [2] Step 3.5 Flash模型技术细节 - 模型采用稀疏MoE架构,总参数为1960亿,但推理时仅激活约110亿参数 [2] - 在单请求代码任务下,模型推理速度最高可达350 TPS [2] - 该模型专为智能体场景设计,在复杂推理和长链任务中表现出色,官方称其推理深度可媲美部分顶级闭源模型 [2] 模型市场反响与社区认可 - 模型在Hugging Face上的下载量已超过30万次,并登上OpenRouter Trending第一名 [3] - 在知名开源项目OpenClaw上,该模型排名已升至前二,反映出其在速度、稳定性和Agent适配性上的真实竞争力 [3] 行业影响与趋势 - 随着OpenClaw等Agent平台热度持续升温,Step 3.5 Flash的开源或将进一步加速中国模型在全球Agent生态中的渗透 [5]
阿里千问3.5三款中等规模模型开源:性能不再依赖参数堆叠
凤凰网· 2026-02-25 15:49
公司产品发布与性能 - 千问大模型正式开源其最新中等规模模型Qwen3.5系列,包括Qwen3.5-35B-A3B、Qwen3.5-122B-A10B和Qwen3.5-27B [1] - Qwen3.5-35B-A3B模型的表现已超越前代更大规模模型Qwen3-235B-A22B-2507及Qwen3-VL-235B-A22B [1] - Qwen3.5-122B-A10B与27B版本进一步缩小了中等规模模型与前沿模型之间的差距 [1] 行业技术趋势 - 模型性能超越模型规模,行业技术发展不再单纯依赖参数堆叠 [1] - 行业正通过架构优化、数据质量提升及强化学习来推动人工智能发展 [1] - 新发布的模型在复杂代理场景中表现尤为优异 [1]
Qwen3.5开源家族扩容
财经网· 2026-02-25 15:04
公司开源与产品发布 - 公司继旗舰模型Qwen3.5-397B-A17B后,进一步开源了三个模型:Qwen3.5-122B-A10B、Qwen3.5-35B-A3B和Qwen3.5-27B(Dense) [1] - 公司正式上线了Qwen3.5-Flash API服务,该服务已部署在阿里云百炼平台 [1]
阿里发布三款中型千问3.5新模型
每日经济新闻· 2026-02-25 14:50
公司动态:模型开源与商业化 - 公司于2月25日继续开源其千问3.5系列模型,本次开源了三款中等规模的新模型,具体为Qwen3.5-35B-A3B、Qwen3.5-122B-A10B和Qwen3.5-27B [1] - Qwen3.5-Flash模型已在阿里云百炼平台上线,其定价为每百万Token输入低至0.2元 [1] 行业趋势:大模型技术发展 - 行业参与者持续推动大模型技术的迭代与开放,中等规模模型的系列化开源成为技术扩散和生态构建的重要策略 [1] 行业趋势:模型服务商业化 - 云服务商正加速将大模型能力转化为可计费的商业服务,通过极具竞争力的定价策略(如每百万Token输入低至0.2元)来吸引开发者和企业用户,推动模型应用落地 [1]
千问大模型:Qwen3.5-Flash来袭,三款中等规模模型全开源
新浪财经· 2026-02-25 14:44
公司产品发布 - 千问大模型于2月25日正式宣布开源其最新一代千问3.5系列的三款中等规模模型,分别为Qwen3.5-35B-A3B、Qwen3.5-122B-A10B和Qwen3.5-27B [1][2][12] - 公司同步开源了Qwen3.5-35B-A3B-Base基座模型,以支持开源社区的深入研究、微调创新与二次开发 [1][7][13] - 三款开源模型均已在国内的魔搭社区和国际的Hugging Face平台上架 [7][19] 技术性能与架构 - 新模型实现了性能超越规模,Qwen3.5-35B-A3B的表现已超越前代更大规模的Qwen3-235B-A22B-2507及Qwen3-VL-235B-A22B模型 [1][2][13] - Qwen3.5-122B-A10B与27B版本进一步缩小了中等规模模型与前沿模型的差距,尤其在复杂代理场景中表现优异 [1][2][13] - 性能提升源于架构优化,而非参数堆叠,具体采用了混合注意力机制与高稀疏的MoE(混合专家)架构创新,并基于更大规模的文本和视觉混合Token进行训练 [3][10][15] - Qwen3.5-122B-A10B与Qwen3.5-35B-A3B以更小的总参数和激活参数量,实现了更大的性能提升 [3][10][15] - 在指令遵循、博士级别推理、数学推理、多语言知识、Agent工具调用、Agentic Coding等多个权威评测榜单上,新模型超越了前代更大规模模型及GPT-5 mini、gpt-oss-120b等竞争对手 [3][10][15] 产品特性与应用 - Qwen3.5-27B是首个密集(Dense)模型,拥有更强的Agent能力和原生多模态能力,在工具调用、搜索、编程等多个Agent评测中超过GPT-5 mini,在多项视觉理解榜单中超过Qwen3-VL旗舰模型和Claude Sonnet 4.5 [4][16] - Qwen3.5-27B可运行于单个GPU,对于本地部署极为友好 [4][16] - 公司推出了Qwen3.5-Flash(即Qwen3.5-35B-A3B的生产版本)API服务,在阿里云百炼平台上线,定价为每百万Token低至0.2元人民币,主打高性价比 [5][17] - Qwen3.5-Flash默认支持1M(100万)的超长上下文长度,满足长文档与复杂任务处理需求 [6][18] - 该API服务提供官方内置工具支持,旨在降低开发者集成成本,加速应用落地 [7][19]
阿里千问宣布Qwen3.5开源家族扩容
第一财经· 2026-02-25 10:15
公司开源与产品发布 - 公司在开源旗舰模型Qwen3.5-397B-A17B后,进一步开源了三个新模型,分别是Qwen3.5-122B-A10B、Qwen3.5-35B-A3B和Qwen3.5-27B(Dense)[1] - 公司正式上线了Qwen3.5-Flash API,该服务部署在阿里云百炼平台[1] 行业技术动态 - 公司持续推动大模型开源,提供了从397B到27B等不同参数规模的模型选择,丰富了开源生态[1] - 公司通过云服务API(Qwen3.5-Flash)的形式,为行业提供了模型即服务的商业化应用路径[1]
以小胜大高性价比,千问春节档真正的杀手锏来了
新浪财经· 2026-02-17 13:14
Qwen3.5-Plus模型发布与性能突破 - 公司于2月16日发布全新一代大模型Qwen3.5-Plus,性能媲美Gemini-3-pro、GPT-5.2等顶级闭源模型,登顶全球最强开源模型 [2] - API定价极具竞争力,每百万Token价格低至0.8元,仅为Gemini-3-pro价格的1/18 [2] - 模型采用以小胜大的架构革新,Qwen3.5-Plus总参数为3970亿,但激活参数仅170亿,性能却超越上一代万亿参数的旗舰模型Qwen3-Max [2] - 新模型在实现性能提升的同时,显著降低了部署成本与推理耗时,算力部署成本降低60%,推理速度提升8倍 [2] 模型架构与技术创新 - 行业竞争焦点从单纯比拼跑分转向追求模型更好用、更多人用得起,公司通过技术创新实现“以小胜大”和“物美价廉” [4] - 引入混合注意力机制,让模型能根据信息重要程度动态分配注意力资源,优化算力使用 [4] - 采用极致稀疏的MoE架构,Qwen3.5-Plus总参数3970亿,激活参数仅需170亿,相当于仅需不到5%的算力即可调动全部知识储备 [4][5] - 原生多Token预测技术让模型推理速度接近翻倍,用户能感知到接近“秒回”般的响应速度 [5] - 模型实现了从纯文本到原生多模态的代际跃迁,大幅新增中英文、多语言、STEM和推理等数据,在推理、编程、Agent智能体等全方位基准评估中表现优异,部分指标超越Gemini 3 Pro和GPT-5.2 [5] 开源战略与商业逻辑 - 公司坚持开源路线,自2023年以来已开源400多个千问模型,覆盖全尺寸、全模态,千问全球下载量突破10亿次 [7] - 开发者基于千问开发的衍生模型超过20万个,使其成为公认的全球第一开源模型及开发者最友好的开源大模型 [7] - 开源顶级AI能力使技术红利向下渗透,让个人开发者、创业团队和中小企业也能接触到,顶级AI能力从高算力、高成本的闭环中跳出 [7] - 公司通过全栈科技企业的商业模式盈利,其业务涵盖从云基础设施、基础模型到应用层面的完整技术体系,可通过销售云计算服务等其他技术层面捕捉价值,而非单纯依赖开源模型变现 [8] - 模型持续演进以服务全球市场,Qwen3.5扩展支持201种语言,词表大小从15万扩展到25万,最高可提升小语种60%的编码效率,来自韩国、泰国、越南、日本、阿联酋、巴西等全球的公司和开发者都基于Qwen开展应用,新加坡国家AI计划已转向采用Qwen [7] AI驱动云业务增长与Agent应用突破 - AI日益成为核心云基础设施服务新增需求的主要驱动力,2025年第三季度,阿里云在中国云市场份额从上季度的34%提升至36%,领先优势扩大,且市场份额已连续三个季度保持增长,稳居中国市场第一 [9] - 根据公司财报,阿里云AI相关产品收入已连续九个季度实现三位数同比增长 [9] - Qwen3.5在Agent能力上实现新突破,可自主操作手机与电脑高效完成日常任务,在移动端支持更多主流APP,在PC端可处理复杂的多步骤操作 [11] - 公司构建了可扩展的Agent异步强化学习框架,端到端可加速3到5倍,并将插件式智能体Agent支持扩展至百万级规模 [11] - 千问App于1月15日发布全球首个消费级AI购物Agent,春节期间,该Agent在6天时间内帮助用户完成了1.2亿笔订单,实现了全球首次大规模真实世界任务执行和商业化验证 [11] - Qwen3.5-Plus模型已第一时间接入千问APP及PC端,开发者可通过魔搭社区、HuggingFace下载或通过阿里云百炼获取API服务,性能更强的旗舰模型Qwen3.5-Max也即将发布 [11]
阿里除夕夜将开源新一代千问Qwen3.5模型
第一财经· 2026-02-16 10:13
公司动态 - 阿里巴巴计划于除夕夜开源其新一代千问大模型Qwen3.5 [1] - Qwen3.5模型实现了模型架构的全面创新 [1]
鏖战2025年,大模型围着开源转
36氪· 2025-12-25 18:29
行业格局演变 - 2025年,开源大模型在全球竞争中彻底占据上风,使用人数跃居全球第一,攻守之势发生逆转 [1] - 行业初期,受ChatGPT示范效应影响,闭源一度被视为主流路径,在数据安全、商业变现、响应速度方面有优势,但在AI普惠、生态建设、市场抢占方面存在短板 [3] - 以Meta和阿里巴巴为代表的头部互联网大厂引领开源,形成了开源与闭源两大阵营对峙的格局,部分企业采取了对内闭源、对外通过云平台提供第三方开源模型的折中方案 [5] 关键驱动事件与公司动态 - DeepSeek-R1以约80小时总训练时长和约29.4万美元的低成本,颠覆了传统算力“大力出奇迹”的思维,其开源策略引发“DeepSeek时刻”,显著壮大了开源阵营声势 [7] - 腾讯旗下的混元世界模型1.5首次开源了业界最系统、最全面的实时世界模型框架 [7] - OpenAI开源了参数量仅0.4B、99.9%权重为零的Circuit-Sparsity模型,提出了稀疏化新路径 [8] - Meta战略发生重大转向,计划于2026年第一季度左右上线押注闭源的Avocado大模型,被描述为“一百八十度的战略转向” [10] 技术性能与市场地位 - 根据《中国智能互联网发展报告(2025)》,以DeepSeek、Qwen为代表的中国开源模型在核心性能上已追平甚至超越国际主流产品,实现了从“跟跑”到“并跑”的转变 [8] - 性能基准测试显示,开源模型在多项竞赛中表现优异,例如DeepSeek-V3.2 Speciele版本在HMMT Feb 2025哈佛MIT数学竞赛中得分99.2,在IMOAnswerBench中得分84.5 [9] - 市场竞争焦点已从单纯的性能比拼,转向成本、效率和商业化能力的综合竞争 [8] 开源成为主流趋势的核心动因 - **动因一:拼应用成为共识**:行业共识认为大模型的尽头是AI应用,谁能跑出杀手级应用谁就能掌握更高生态位 [11] - 截至2025年9月,AI应用市场移动端、PC端月活跃用户数分别达到7.29亿、2.00亿,其中豆包月活1.72亿,DeepSeek月活1.45亿 [11] - 开源被视为大模型落地的最短路径,能聚拢分散力量,共同营造繁荣的AI应用生态,寻找超级流量入口 [13] - **动因二:构建大模型生态**:开源大幅降低了开发者创业和创新的门槛,减少了成本、缩短了迭代周期、提升了用户体验 [13] - 庞大的开发者群体可以进行技术反馈,通过开源的知识聚合让大模型加速迭代 [13] - 开源带来的高用户黏性可以带来不可估量的商业价值,成为互联网大厂争夺的战略制高点 [14][15] - **动因三:开源不等于免费,存在清晰的商业化路径** [18] - 商业化路径包括:提供增值功能的企业版收费、通过商业API提供高性能服务收费、以及通过云服务(算力租赁、数据加密等)收费 [19] 主要参与者的开源策略 - 阿里巴巴累计开源超300个模型,衍生模型数量逾17万个,位居全球开源大模型首位,采取赛马路线 [16] - 百度将模型开源与算力自主绑定,自研昆仑芯P800以及万卡集群,走全栈自主路线 [17] - 随着OpenAI、谷歌、英伟达等硅谷巨头入局,开源模型竞争格局从DeepSeek一家独大走向多元竞争 [20][22] 市场数据与份额 - OpenRouter数据显示,开源模型的市场份额已攀升至33% [20] - 技术差距的弥合使得市场竞争的焦点从单纯的性能比拼,迅速转向成本、效率和商业化能力 [8]