阿里巴巴(09988)
搜索文档
谷歌DeepMind向千问团队抛橄榄枝
第一财经· 2026-03-05 15:08
行业动态与人才竞争 - 谷歌DeepMind开发团队公开向通义千问(Qwen)团队的研究人员发出邀请,希望他们加入以构建优秀模型并为开放模型生态系统做出贡献 [1] - 谷歌DeepMind表示其发展路线图上有许多令人兴奋的内容,并强调未来有大量工作要做,暗示其积极扩张和投入的态势 [1] 公司人事变动 - 阿里巴巴集团批准了通义实验室研究员林俊旸的辞职申请 [1]
林俊旸,只恨不是梁文锋
投中网· 2026-03-05 14:49
文章核心观点 - 阿里大模型核心负责人林俊旸离职,标志着公司AI战略从以技术研发和开源生态建设为核心,转向以C端用户增长和商业化落地为优先,这反映了行业竞争已进入依赖流量、资本和商业化的新阶段[5][6][11][13] - 林俊旸的离职源于与公司在战略方向上的根本分歧:其团队专注于模型底层研发与开源生态,而阿里当前需要将资源向C端产品整合与商业化收入倾斜,这种“产模分离”模式难以为继[6][7][10][12][14] - 行业竞争逻辑已彻底改变,从比拼技术能力和开源口碑的初期阶段,进入了大厂间流量、生态、资本和商业化能力的全面竞争,技术研发必须服务于商业战略[11][13] 阿里战略与组织调整 - 阿里进行组织调整,将AI品牌统一为“千问”并直接向集团CEO汇报,目的是打破“产模分离”,实现研发、产品、商业化的全链路闭环,资源重心向C端倾斜[11] - 通义实验室计划将Qwen团队从垂直整合拆分为预训练、后训练等水平分工团队,这缩小了林俊旸的管理权限,与其坚持的紧密整合理念冲突[6] - 有传言称阿里计划将未来Qwen旗舰模型全面转向闭源以实现高效商业化,这与林俊旸坚持开源领先的“初心”相悖[7] 林俊旸的贡献与团队方向 - 林俊旸是阿里最年轻的P10,全程主导了Qwen系列开源大模型的架构设计与迭代研发,是国内大模型领域公认的顶尖技术专家[5][7] - 在其带领下,团队跑出了差异化优势,做出了国内综合竞争力最强的开源大模型体系之一,包括Qwen-7B、14B、72B及多模态Qwen-VL系列[9] - Qwen系列开源后累计下载量达数亿次,长期位居国内外主流开源平台下载榜前列,成为国内大量中小厂商、创业公司和科研机构的核心底座,是国内大模型开源生态的核心支撑之一[9] - 该团队核心方向明确:聚焦模型底层研发,以生态广度反哺阿里云长期增长,接受商业回报周期拉长,不直接承担C端产品商业化KPI[9] 行业竞争格局变化 - 2026年春节,国内头部厂商掀起投入几十亿元的流量大战,彻底改写了行业格局,中国AI模型的Token使用量首次超越美国头部模型[11] - 行业竞争进入深水区,商业化路径变得清晰,例如Kimi发布K2.5模型后不到一个月的收入就超过去年全年营收[11] - 阿里虽然在企业级市场与开源圈拥有Qwen这一核心资产,但在C端战场的竞争维度不同,表现可能未达集团预期[11] - 资本市场已不再为夸张的资本支出买单,阿里股价从180跌至130,公司必须拿出真实的用户数据与商业化成绩[14] 理念冲突与影响分析 - 核心理念冲突在于:技术人员认为底层基模性能突破与开源生态是长期核心壁垒,而公司认为当前阶段用户规模与商业化落地才是核心指标[12] - 将核心算力与研发精力向C端产品功能迭代倾斜,会打乱基模研发节奏,大量产品化需求可能打破原有技术迭代规划,动摇开源优先的基础[12] - 核心负责人离职可能影响Qwen后续技术迭代节奏,甚至导致阿里在大模型核心技术上掉队[14] - 对阿里而言,调整是理性且必然的,推进产研一体化是必须迈出的一步,即便付出失去核心技术人才的代价[14] 后续发展与行业启示 - 对阿里而言,考验在于如何稳住团队、保证技术迭代、平衡商业化与长期技术壁垒、协调开源与旗舰模型的资源分配[15] - 对林俊旸等顶尖技术人才而言,离开大厂并非终点,顶级大模型研发人才仍是行业最稀缺的核心资源,市场机会广阔[15] - 事件标志着靠技术能力和开源口碑就能拿到行业话语权的初创阶段已经过去[13] - 技术天才与大厂商业战略的博弈持续存在,类似冲突在国外大模型公司也已多次上演,人才的离开往往推动行业新一轮创新与变革[13][15]
模型砍掉一大半,准确率反升15%!华科&阿里安全新研究实现ViT近乎无损的类特定压缩|ICLR'26
量子位· 2026-03-05 14:33
行业背景与痛点 - 视觉大模型(如Vision Transformer)在图像识别等任务中表现出色,但参数庞大、计算开销高,难以在资源受限的终端设备上高效运行[1][4] - 云侧部署虽然计算资源充足,但难以保证自动驾驶、智慧医疗等场景所需的实时性、安全性和可靠性[4] - 边缘/端侧部署能减少延迟、保护隐私并提高可靠性,但大模型需要通过压缩才能部署[6] - 许多实际应用场景(如自动驾驶)仅需处理少数关键目标类别,通用模型中大量无关知识不仅浪费资源,还会削弱模型对关键目标的聚焦能力[1][7][8] 解决方案与核心创新 - 相比“大而全”的通用模型,“小而专”的定制化模型更贴合实际需求,能降低部署成本并有利于长期稳定运行[2] - 华中科技大学与阿里巴巴集团安全部联合提出定制化端侧模型部署新范式——Vulcan,其论文已被ICLR 2026接收[3] - Vulcan采用“先训练再剪枝”的新范式,改变了传统的“先剪枝再训练”策略,旨在引导模型聚焦目标类别并引入结构化参数冗余[3] - 该方法支持将训练后的视觉大模型以近乎无损的方式转换为定制化小模型,避免了剪枝带来的不可逆知识损失[3] - Vulcan的核心思想是在模型压缩过程中充分挖掘并保留ViT中与目标类别高度相关的关键信息[13] 技术原理与关键洞见 - 研究团队揭示了类相关信息与类无关信息在视觉Transformer网络中的分布规律[10] - 在前馈网络模块中,不同神经元编码不同视觉特征,深层神经元聚焦高层语义甚至特定类别,表明FFN模块是类特定知识的重要载体[10] - 在多头注意力模块中,Query-Key和Value-Output矩阵乘法的中间维度主要承载类别无关的通用表征信息,具有天然的低秩特性,适合通过矩阵分解实现压缩[11] - Vulcan框架包含两大核心组件:类中心神经元坍缩 和 截断核范数正则化[13] - CCNC组件旨在FFN中凝练与目标类别最相关的关键信息,通过评估激活强度、聚类神经元并引导向锚点收敛,将冗余神经元整合为少量高价值单元[15] - TNNR组件旨在利用MHA模块中权重矩阵的低秩特性,引导其形成更适合奇异值分解的结构,将类无关知识集中在少数维度上[15] - 在增广拉格朗日优化框架下,后训练初期以任务损失为主导,后期CCNC和TNNR约束逐步占据主导,引导模型结构演化[16] - 训练后直接执行确定性结构化剪枝:在FFN模块中将神经元簇替换为锚点神经元,在MHA模块中通过SVD截取主要奇异分量,由于冗余已被充分约束,此过程被证明是计算等价且精度无损的[17] 实验效果与性能 - 在图像分类、目标检测和实例分割三类视觉任务上,于ImageNet、CIFAR和COCO等数据集进行了系统评估[18] - Vulcan派生的模型在ImageNet子任务上的准确率最高可提升15.12%,而模型规模仅为原模型的20%–40%[19] - Vulcan始终优于当前最先进的结构化剪枝方法,在类特定准确率方面最高可提升13.92%[19] - 在剪枝率为0.60和0.80的对比实验中,Vulcan在多个子任务上的平均准确率均显著高于Random、NViT、X-Pruner、DC-VIT、MDP等方法[21] - Vulcan在DeiT-Small、DeiT-Tiny和Mask R-CNN等不同规模基础模型以及CIFAR、COCO等多个数据集上表现出良好的跨模型和跨任务泛化能力[21] - 在Jetson Orin NX边缘设备和NVIDIA RTX 4090服务器上的部署测试显示,Vulcan可以实现1.23倍至3.02倍的推理加速[22] - 在部署测试中,Vulcan可以降低20.59%至76.47%的显存占用[22] - 具体数据显示,在DeiT-Base模型上,Vulcan在不同剪枝率下均能减少参数数量和计算量,并显著提升推理吞吐量和降低延迟[23] - 在面向Stanford Dogs子任务的可视化分析中,证实Vulcan能引导模型在后训练阶段强化目标类别知识表达,使神经元响应模式从分散转为集中清晰[23] 总结与意义 - 该研究表明,深入理解模型内部知识结构是实现稳定可靠轻量化部署的关键[25] - Vulcan通过揭示ViT中类相关与类无关知识的解耦分布,并在后训练阶段主动塑造可控冗余结构,实现了近乎无损的类特定模型派生[25] - 该方法为视觉大模型从“通用泛化”走向“精准服务”提供了切实可行的新思路[25]
阿里巴巴回应!
券商中国· 2026-03-05 14:04
公司管理层与人事变动 - 阿里巴巴CEO吴泳铭于3月5日通过内部邮件回应通义千问核心团队成员林俊旸离职一事,公司已批准其辞职[1] - 林俊旸于2019年加入阿里巴巴达摩院,2022年被任命为通义千问系列大模型的技术负责人,并于2024年3月4日宣布离开[1] - 公司任命靖人继续领导通义实验室,并成立由吴泳铭、靖人、范禹共同协调的基础模型支持小组,以支持基础模型建设[1][2] 公司战略与研发投入 - 公司明确将继续坚持开源模型策略,并将发展基础大模型视为面向未来的关键战略[1][2] - 公司将持续加大对人工智能领域的研发投入,并加大吸纳优秀人才的力度[1][2] - 公司内部人士表示,千问的开源策略未改变,且基础模型团队未以日活等商业化目标进行考核[1] 产品与技术进展 - 3月2日,通义千问Qwen3.5小尺寸模型系列开源,包括0.8B、2B、4B、9B版本[1] - 林俊旸在离职前曾就此次开源在社交媒体上与马斯克进行互动[1] - 林俊旸在任期间主导完成了Chinese CLIP中文预训练模型,并参与推动了通义千问大模型的发布[1]
阿里巴巴CEO回应林俊旸离职
21世纪经济报道· 2026-03-05 13:33
阿里巴巴AI业务人事变动与战略重申 - 阿里巴巴通义千问大模型技术负责人林俊旸已正式离职 [1] - Qwen后训练负责人郁博文于同日离职,Qwen Code负责人惠彬已于1月加入Meta [1] - 公司CEO吴泳铭通过内部邮件回应,靖人将继续领导通义实验室 [2] - 公司将成立由吴泳铭、靖人、范禹共同协调的基础模型支持小组,以协调集团资源支持基础模型建设 [2] 阿里巴巴AI核心战略方向 - 公司明确发展基础大模型是面向未来的关键战略 [2] - 公司将继续坚持开源模型策略 [1][2] - 公司将持续加大对人工智能领域的研发投入 [1][2] - 公司将加大吸纳优秀人才的力度 [1][2] 其他行业动态 - 黄金消费市场活跃,有金店日销售额达到百万元级别,多家银行投资金条产品出现断货情况 [3] - 中国创新药领域交易活跃,大额订单频繁出现 [3]
阿里回应林俊旸离职
证券时报· 2026-03-05 12:25
公司管理层变动 - 公司批准了通义实验室林俊旸的辞职 [1][2] - 靖人将继续带领通义实验室推进后续工作 [2] - 公司将成立基础模型支持小组,由CEO吴泳铭、靖人、范禹共同协调集团资源支持基础模型建设 [2] 公司AI发展战略 - 公司将坚持开源模型策略 [1][2] - 发展基础大模型是公司面向未来的关键战略 [2] - 公司将持续加大对人工智能领域的研发投入 [1][2] - 公司将加大吸纳优秀人才的力度 [1][2]
阿里批准林俊旸离职,CTO周靖人接管千问!Gemini周浩确定加盟
量子位· 2026-03-05 12:13
核心事件:阿里巴巴通义实验室人事变动 - 阿里巴巴CEO吴泳铭正式批准通义实验室负责人林俊旸辞职 [1][2] - 此次人事变动事发突然,并非计划已久的交接,CEO吴泳铭在紧急会议上表示“我应该要更早知道这些” [4][5][6] - 事件引发团队震荡,多位千问核心研究员随林俊旸出走,“Qwen is nothing without its people”的推文在社交媒体刷屏 [6][7] 公司官方回应与后续安排 - 阿里巴巴首席人才官蒋芳承认在“组织形式”和沟通上存在不足,但高层表示调整无关办公室政治,目的是扩充团队、投入更多资源 [8][9] - 公司决定成立“基础模型支持小组”,由CEO吴泳铭、CTO周靖人及范禹共同协调集团资源支持基础模型建设 [2] - 公司重申发展基础大模型是面向未来的关键战略,将继续坚持开源模型策略,并持续加大AI研发投入和人才吸纳力度 [2] 事件背景与团队现状 - 林俊旸离职前,其领导的千问团队规模仅有数百人,与同级别大厂的AI团队规模差了一个量级 [10] - 阿里云CTO周靖人承认团队处于“资源紧张状态” [11] - 截至会议结束,林俊旸的继任者人选仍未明确公布 [3][12] 潜在继任者:周浩的背景与资历 - 来自Google DeepMind的高级研究员周浩被推至台前,据传将主导千问的后训练工作 [13][17] - 周浩是Gemini系列模型的核心贡献者之一,主要负责后训练,其工作让模型“变得更聪明、能适应更复杂的真实世界任务” [19][20][21] - 他是Gemini 3.0的关键贡献者,带领Gemini模型在LMSYS排行榜获得全球第一,并在IMO、ICPC等竞赛中取得金牌 [20] - 周浩于2021年加入谷歌,经历了从LaMDA、Bard到Gemini的全周期演进,长期主导大模型强化学习、复杂推理与自我进化 [20] - 此前,他曾在Meta担任近四年的高级研究科学家,负责深度学习与对话式AI在短视频、AR/VR及广告业务的应用 [27][28] - 周浩是Gemini系列三篇里程碑论文的作者/合著者,论文引用量巨大,其中《Gemini: a family of highly capable multimodal models》被引8211次 [33] - 根据谷歌学术数据,其总被引量已超过1.4万次,自2021年以来的被引量达14071次 [34]
阿里批准林俊旸离职,成立基础模型支持小组
新华网财经· 2026-03-05 12:10
阿里巴巴管理层变动与AI战略 - 公司批准通义实验室负责人林俊旸辞职,并感谢其过往贡献 [2] - 周靖人将继续领导通义实验室,推进后续工作 [2] - 公司将成立由CEO吴泳铭、周靖人及范禹共同协调的基础模型支持小组,以协调集团资源支持基础模型建设 [2] 阿里巴巴人工智能战略方向 - 公司将基础大模型发展视为面向未来的关键战略 [2] - 公司将继续坚持开源模型策略 [2] - 公司将持续加大对人工智能领域的研发投入 [2] - 公司将加大吸纳优秀人才的力度 [2]
Alibaba CEO confirms departure of Qwen AI division head
Reuters· 2026-03-05 11:33
公司管理层变动 - 阿里巴巴首席执行官吴泳铭确认,公司人工智能部门通义千问的负责人已离职 [1] - 吴泳铭在一封员工信中宣布了这一人事变动 [1] 公司战略与资源分配 - 公司承诺将向人工智能开发投入更多资源 [1]
恒科蒸发6000亿美元,市场在怕什么?
华尔街见闻· 2026-03-05 10:53
恒生科技指数表现与市场背景 - 恒生科技指数自去年10月高点以来累计下跌28%,市值蒸发近6000亿美元 [1] - 市场核心忧虑在于激烈的AI补贴战正在侵蚀利润,而最终胜出者尚无定论 [1] - 国内科技巨头正面临一场由AI军备竞赛引发的估值重估 [5] 主要公司面临的挑战与预期 - 腾讯与阿里首当其冲,面临来自字节跳动等竞争对手持续加码资本支出的压力 [1] - 阿里巴巴截至去年12月的季度净利润预计同比下滑45% [4] - 腾讯可能面临2023年以来最慢的季度利润增速 [4] - 高盛下调阿里目标价,理由是该公司为争夺AI领导地位,2028年前的资本支出将超出此前预期 [3] AI领域的竞争与资本支出 - 字节跳动、阿里巴巴、腾讯和百度在春节假期期间合计砸下约11亿美元补贴以争夺用户 [2] - 市场担忧激烈竞争导致资源浪费和低回报 [5] - 中国的AI支出目前仍属合理,但竞争激烈 [5] 市场结构与资金流向变化 - 传统互联网巨头与新兴AI企业及高成长硬件板块之间存在明显的“跷跷板”挤出效应 [5] - AI模型开发商MiniMax及图谱科技自今年1月上市以来,股价均已累计飙升逾280% [5] - 一批中国AI新兴企业对全球市场波动的敏感度明显较低 [5] 市场估值与投资者观点 - 恒生科技指数目前市盈率不足17倍(基于远期盈利预测),低于近五年均值约22倍 [6] - 有分析师建议逢低买入超跌的大型科技股,押注其反弹潜力 [6] - 部分投资者选择观望,并对中国互联网板块持低配立场,因难以判断最终赢家,且担忧补贴停止后用户留存问题 [6] - 市场情绪仍偏谨慎,等待腾讯、阿里等公司给出更清晰的AI战略 [5]