Dense模型

搜索文档
十年前的手机都能跑,阿里掏出了最适合落地的小模型?
观察者网· 2025-05-12 18:01
通义Qwen3模型发布 - 阿里巴巴旗下通义平台推出新一代开源模型Qwen3系列,包含8款不同尺寸,其中6款为Dense模型(参数0.6B至32B),2款为MoE模型(参数30B和235B)[1] - 最小0.6B模型参数量仅6亿,远低于2019年GPT-2的15亿参数,可在10年前手机芯片上运行,4B/8B模型表现更优[1][9] - 阿里云CTO表示多尺寸设计旨在满足不同场景需求:手机端推荐4B,电脑/汽车端推荐8B,企业级偏好32B[1] 稠密模型技术特性 - Dense模型采用全连接架构,所有参数全局共享,相比MoE架构更适合低延迟场景如客服/推荐/风控[3][4][7] - 稠密模型具有简单性、高效性和普适性优势,Pytorch/TensorFlow工具链成熟,个人开发者落地成本低[7][8] - 随着参数膨胀,稠密模型训练成本上升,MoE架构通过稀疏门控节约资源但增加通信成本[7] 小模型性能表现 - Qwen3-0.6B可在2014年骁龙801芯片(4核2.5G CPU)上运行,当前小天才手表芯片性能是其2倍[9][10] - 实测显示iPhone 16 Pro Max实时响应,2015年索尼手机延迟1秒;4B模型能准确回答脑筋急转弯问题[11][13] - 官方称Qwen3-4B性能媲美Qwen2.5-72B,智能手机可流畅运行4B模型,电脑可运行8B模型[14] 行业生态适配 - 英特尔完成车端/AI PC适配,海光信息DCU芯片完成全系列8款模型优化[14][15] - 模型支持119种语言(上代29种),采用Apache2.0协议开源,覆盖全球200多国市场[17] - 开发者反馈小模型适合高并发(万级QPS)、低延迟(毫秒级)场景,已有企业用于边缘设备数据分析[18] 阿里AI战略布局 - 电商/物流/金融科技业务天然适合Dense模型,可降低大模型幻觉风险[17] - 整合天猫精灵与夸克团队,通义MAU1.48亿居国内AI应用榜首,强化"云+端"协同[19][21] - 小模型战略可降低算力成本,应对C端渗透率提升带来的资源压力[21]