文章核心观点 - 阿里巴巴通过整合“通义实验室、阿里云、平头哥”,形成了名为“通云哥”的“大模型+云+芯片”全栈AI架构,旨在构建从底层硬件到上层应用的自主可控技术体系 [1][2] - 全栈AI路径是AI竞争进入深水区后的新共识,但该路径投入巨大、挑战重重,其成功关键在于芯片能力与生态构建 [2][3][17] 阿里巴巴“通云哥”全栈AI战略 - “通云哥”战略由马云在2025年春天定名,使命是让每个人和企业都能参与AI时代,其成形基于公司长达17年的战略投入与垂直整合 [1][2][15] - 该战略由三大支柱构成:模型层的通义千问大模型、基础设施层的阿里云、硬件层的平头哥自研芯片,三者协同以实现系统效率提升 [12][15] - 阿里巴巴CEO吴泳铭表示,全栈AI技术能力已成为阿里云的关键竞争优势 [16] - 目前全球范围内,仅有阿里巴巴和谷歌两家公司在大模型、云和芯片三大领域均有布局且具备实力 [17] 平头哥与“真武”AI芯片进展 - 平头哥半导体公司于2018年合并中天微系统与达摩院芯片团队成立,旨在突破国际芯片垄断,已相继推出含光800、玄铁处理器、倚天710等产品 [4] - 公司近期正式推出高端AI芯片“真武810E”PPU,采用自研并行计算架构和片间互联技术,内存为96G HBM2e,片间互联带宽达700 GB/s,可应用于AI训练、推理和自动驾驶 [4][5] - “真武”PPU整体性能据称超过英伟达A800和主流国产GPU,与英伟达H20相当,升级版性能强于英伟达A100 [8] - 该芯片性能稳定、性价比突出,市场供不应求,累计出货量已达数十万片,超过寒武纪,在国产GPU厂商中属第一梯队 [8] - “真武”PPU已在阿里云实现多个万卡集群部署,服务了国家电网、中科院、小鹏汽车、新浪微博等400多家客户,并大规模用于千问大模型的训练和推理 [8] 全栈AI路径的挑战与行业困境 - 硬件层面存在代际差距,国内芯片企业无法使用最先进制程,存在约两代的差距,且缺乏高效的大规模互联技术,难以组建高性能万卡级集群 [10] - 软件层面面临生态适配困境,尤其是与英伟达CUDA生态的兼容问题,这是几乎所有中国AI芯片公司共同面临的挑战 [10] - AI模型架构快速演进,芯片设计需具备足够弹性与前瞻性,否则专用芯片可能面临“刚量产即过时”的风险 [10] - 有行业观点认为,在中国当前条件下,更理性的路径或许是联合扶持一到两家国内芯片企业,集中力量突破 [17] 全栈AI模式的行业对比与意义 - 全球科技巨头中,谷歌是拥有自研芯片TPU、云平台和Gemini大模型的先行者,软硬一体协同建立了效率与体验壁垒 [2][15] - 亚马逊和微软有云和芯片,但缺乏顶级模型,依赖外部合作,长期面临合作风险,例如OpenAI已开始将部分负载迁移至Google Cloud和Oracle [14] - OpenAI则拥有顶级模型但无云底座与芯片,其技术演进受制于合作伙伴的资源分配和商业节奏 [14] - 对于大多数客户而言,需要的是一套能稳定交付、持续迭代、安全可控的端到端解决方案,整合能力差异正成为决定未来AI产业格局的关键因素 [14] - 在中国市场,算力自主已成为不可逆的战略方向,政策引导、信创采购与本土云巨头的自研需求共同构成了国产AI芯片的基本盘 [11] - “通云哥”全栈路径的战略意义或许已超过商业本身,代表了一条从底层芯片到上层应用完全自主可控的技术路径 [17]
十七年闭关 阿里“通云哥”雏形初现