通义千问3(Qwen3)

搜索文档
DeepSeek R2 因芯片问题推迟发布
是说芯语· 2025-08-14 14:28
公司动态 - DeepSeek因使用华为昇腾芯片训练R2模型时遇到技术问题(稳定性欠佳、软硬件支持不足、芯片通信慢),被迫在训练阶段改用英伟达芯片,推理阶段仍用华为芯片,导致R2模型发布从5月起推迟[2][4] - 华为已派遣工程师团队协助DeepSeek解决昇腾芯片适配问题,但公司仍无法在昇腾上完成训练运行,目前仅推进推理兼容[7][8] - 创始人梁文锋对研发进度不满,加码投入以维持AI领域领先地位,同时数据标注耗时超预期进一步延迟发布,模型或几周内推出[2][8] 行业背景 - 中国政策鼓励科技公司采用华为、寒武纪等国产芯片替代英伟达,近期要求企业说明订购英伟达H20芯片的理由[7] - 国产芯片存在稳定性差、芯片间连接速度慢、软件性能不足等问题,导致关键任务仍依赖英伟达[4][6][7] - 中美地缘政治影响下,英伟达同意上交部分在华收入以恢复H20芯片销售,并强调开发者对AI生态的关键作用[11] 技术挑战 - 训练阶段对芯片性能要求极高,昇腾芯片目前难以胜任,而推理阶段兼容性相对容易实现[4][6] - 加州大学研究员指出,华为昇腾芯片面临"成长的烦恼",但未来可能突破训练瓶颈[10][11] 竞争格局 - 行业研究员认为AI模型易被替代,开发者转向阿里通义千问3等竞品,后者借鉴DeepSeek算法但使用效率更高[9] - DeepSeek R2延迟发布使其落后于竞争对手,凸显国产芯片技术自主的阶段性困境[4][6]
阿里发布新一代千问3模型,其8种模型版本全部开源
贝壳财经· 2025-04-29 10:37
模型性能与架构 - 新一代通义千问模型Qwen3采用混合专家(MoE)架构,总参数量235B,激活仅需22B [3] - 预训练数据量达36T,并在后训练阶段多轮强化学习,将非思考模式无缝整合到思考模型中 [3] - 在推理、指令遵循、工具调用、多语言能力等方面均大幅增强,创下国产及全球开源模型性能新高 [3] - 在AIME25测评中斩获81.5分,LiveCodeBench评测突破70分,ArenaHard测评以95.6分超越OpenAI-o1及DeepSeek-R1 [3] 成本与部署优势 - 参数量仅为DeepSeek-R1的1/3,成本大幅下降 [1] - 仅需4张H20即可部署千问3满血版,显存占用仅为性能相近模型的三分之一 [3] - 提供丰富的模型版本,包含2款MoE模型和6款密集模型,每款均获同尺寸开源模型最佳性能 [4] - 30B参数MoE模型实现10倍以上性能杠杆提升,32B版本可跨级超越Qwen2.5-72B性能 [4] 应用场景与生态 - 4B模型适合手机端,8B模型适合电脑和汽车端,32B模型受大规模部署企业欢迎 [5] - 采用Apache2.0协议开源,支持119种语言,全球开发者可免费下载商用 [5] - 个人用户可通过通义APP体验,夸克即将全线接入 [5] - 阿里通义已开源200余个模型,全球下载量超3亿次,千问衍生模型数超10万个 [6] 界面创新 - 界面布局创新,通过拖动"时间轴"按钮控制思考最大长度,实现算力消耗预算控制 [1] - 搜索框添加"MCP"(模型上下文协议)选项,显示为"即将推出" [1]