公司技术进展 - 中国AI初创公司DeepSeek与北京大学研究人员合作,提出了一种名为“Engram”(记忆痕迹)的“条件记忆”新技术 [1][2] - 该技术旨在通过将计算与存储“解耦”,绕过GPU高带宽内存(HBM)容量限制,解决扩大AI模型规模时的关键瓶颈 [2][3] - 新技术能够提升模型在处理长上下文时的效率,这是将AI聊天机器人转变为现实世界中有用代理的主要挑战之一 [3] - 研究人员在一个拥有270亿个参数的模型中验证了该技术,使主要行业基准测试的表现提升了几个百分点,并为执行更复杂的推理保留了更多容量 [3] - 研究人员认为条件记忆将成为下一代稀疏模型中不可或缺的建模原语,并将其潜在影响比作此前开发的、已被其他中国竞争对手采用的“混合专家”技术 [4] - 开源开发者平台Hugging Face的研究工程师称赞该论文“在推理和训练时用硬件上验证了这一技术” [6] 公司发展动态与行业地位 - 外界猜测DeepSeek将在今年春节(2月中旬)之前发布一款重要的新模型 [1][7] - 美国硅谷媒体The Information报道称,DeepSeek预计将在2月中旬推出一款具备强大编程能力的新V4模型 [8] - 去年年初,DeepSeek发布的DeepSeek-R1大模型使用英伟达H800 GPU进行训练,仅用两个月完成,成本为550万美元,仅为OpenAI等美国公司所花费金额的一小部分,却实现了足以匹敌美国顶尖AI模型的效果 [6] - 微软总裁警告称,在争夺西方以外用户的竞争中,美国AI公司正被中国竞争对手超越,中国低成本的“开源”模型是一大优势 [6] - 微软的一项新研究发现,DeepSeek的R1模型因其“易用性和低成本”,帮助加速了AI在全球范围内的普及,尤其是在全球南方国家,这让中国在“开源”AI模型的全球市场份额方面超越了美国 [7] - 微软总裁指出,中国AI初创公司DeepSeek的技术在非洲等新兴市场快速普及,凸显了美国公司面临的全球竞争,并称中国现在拥有不止一个具有竞争力的开源模型 [7] 行业背景与挑战 - DeepSeek在算力相对美国行业领先企业存在差距的情况下,持续专注于最大限度地提高成本效率 [1] - HBM是中国在AI硬件方面与美国之间最大的差距之一,中国存储芯片巨头长鑫存储仍然比韩国三星、SK海力士及美国美光科技等行业领军者落后数年 [3] - 行业中最大的模型拥有数万亿个参数 [6]
梁文锋署名DeepSeek新论文,“突破GPU内存限制”