混元大语言模型

搜索文档
大摩中国AI 60强榜单曝光!未来6至12个月将是中国AI企业的关键期
智通财经网· 2025-05-18 10:05
中国AI战略与全球定位 - 中国长期战略目标是成为人工智能技术全球领导者,自上而下的人才、创新、数据和基础设施生态系统为AI发展创造有利环境[1] - 中国AI研究更倾向于商业应用如自动驾驶、智能制造、智能客服和数字人,与美国侧重消费应用形成对比[1] - 中国AI发展路径强调效率驱动,通过开源模型如DeepSeek-R1降低成本,而非资本密集型高性能模型[2] 基础设施层 - 中国AI GPU自给率预计从2024年34%提升至2027年82%,华为Ascend系列芯片和寒武纪创新推动硬件发展[5] - 联想三大业务受AI驱动:IDG推动AIPC/AI手机换机潮,ISG算力需求2024Q4同比增60%,SSG助力企业数智转型[6] - 数据中心新预订量预计从2024年2.1吉瓦增至2025年3.7吉瓦(+76%),华北市场由阿里、腾讯、字节跳动主导[7][8] 平台层 - 中国IaaS/PaaS市场因AI应用加速增长,阿里云运营最大模型即服务社区,通义千问3在编码和数学评估中领先[9] - 腾讯混元大模型应用于微信生态提升广告定向与内容创作,云业务资源转向外部客户将推动2025Q2收入加速[9] - 开源LLM生态如DeepSeek降低企业应用门槛,促进跨行业AI创新[10] 应用层 - 2C领域超级应用(如微信)集成AI功能提升用户体验和商业价值,电商、社交、娱乐企业迎机遇[11] - 2B领域应用速度超公有云周期,订阅模式用于文本生成、在线会议等专业场景[11] - L2+自动驾驶渗透率2025年预计达25%,比亚迪、吉利引入DeepSeek升级智能驾驶与座舱[12] - 人形机器人全球TAM预计2050年达5万亿美元,中国2030年库存或占全球30%[12] 支持性行业 - AI数据中心电力需求2035年或占中国总电力10%,"东数西算"政策促进绿色能源应用[14] - 中国量子计算突破:祖冲之三号105比特原型机计算速度超超级计算机,京沪干线建成1200英里QKD网络[14] - 中国半导体公司加速创新以弥补GPU限制,推动硬件效率提升[15]
腾讯、华为、微软、阿里专家齐聚一堂,共谈推理优化实践 | AICon
AI前线· 2025-04-23 15:28
大模型推理性能优化技术方向 - 大模型推理性能优化围绕模型优化、推理加速与工程优化三大方向展开 [3] - 模型优化手段包括量化、剪枝与蒸馏,例如DeepSeek-R1-Distill-Qwen-32B通过蒸馏策略显著压缩资源开销 [4] - 推理加速依赖SGLang、vLLM等高效引擎提升生成速度与系统吞吐能力 [4] - 工程优化需结合业务场景规划并发策略与GPU配置,构建高可用推理服务体系 [4] 腾讯混元AngelHCF框架实践 - 腾讯推理架构师向乾彪将分享混元大语言模型的推理加速框架AngelHCF [5] - AngelHCF在算子设计、通信优化、架构调整方面取得显著成本与性能优势 [6] - 关键技术包括混元Turbos Hybrid推理优化、Mamba Hybrid模型结构创新 [6] - 通过Kernel/显存/KVCache优化降低资源消耗,并采用超大规模MoE模型并行策略缓解通信瓶颈 [6][7] - 智能调度与计算通信重叠策略确保大规模推理环境高效运行 [7] 华为昇腾推理技术优化 - 华为昇思AI框架开发者张君将探讨大模型推理加速的算子融合、量化及Attention容量压缩技术 [9] - 通过昇腾硬件加速库ATB、图编译技术TorchAir实现模型层/框架层/算子层协同优化 [10] - 动态批处理技术与前沿融合算子设计最大化硬件资源效率 [10] 微软KV缓存长文本优化 - 微软姜慧强聚焦KV缓存优化,解决长文本推理的计算与内存压力 [13][14] - 围绕KV缓存生成、压缩、检索环节优化,并引入SCBench基准测试工具对比性能 [14] - 对比主流LLM供应商的KV缓存技术差异,展望长文本推理未来方向 [15] 阿里云跨层优化实践 - 阿里云李元龙分享从Transformer前向传播到硬件加速的全链路优化 [17] - 整合PyTorch动态图编译、算子优化与CUDA并行计算策略 [17] - 采用动态计算图与稀疏激活模式突破算力瓶颈 [18] AICon大会其他亮点 - 活动涵盖多模态、Agent、端侧智能等前沿技术 [23] - 包括AI原生产品落地、多领域Agent应用、硬件终端创新及多模态大模型实践 [24][25][26] - 50+行业专家解析大模型最新进展 [27]