Workflow
有监督微调
icon
搜索文档
喝点VC|a16z关于DeepSeek的内部复盘:推理模型革新与20倍算力挑战下的AI模型新格局
Z Potentials· 2025-03-23 13:10
文章核心观点 - DeepSeek R1作为高性能推理模型代表开源透明特性推动行业技术发展[3][4] - 推理模型通过多阶段训练实现自我反思和链式思维显著提升复杂问题解决能力[11][13][20] - 模型创新聚焦计算效率优化包括MLA架构和GRPO算法降低训练与推理成本[30][31] - 开源模型生态加速应用创新使本地设备运行高性能AI成为可能[36][37] DeepSeek技术架构 - 采用多头潜注意力机制(MLA)优化KV向量存储效率支持扩展上下文长度至128K[30] - 引入耦合绳(couple rope)技术解决位置向量丢失问题提升长文本处理能力[30] - 使用FP8混合精度训练和GRPO采样算法提升训练效率减少计算资源消耗[30][31] 多阶段训练流程 - 预训练阶段基于互联网全量数据使用H100 GPU集群进行下一代token预测[6][27] - 有监督微调(SFT)使用人类生成示例教导模型直接输出答案而非自动补全[7][9] - 基于人类反馈的强化学习(RLHF)通过偏好评分优化答案质量[9][10] - R1训练包含两次SFT和两次RL阶段累计使用80万条样本(60万数学代码+20万创造性写作)[26] 模型性能突破 - R1答案长度从1000 tokens增至1万 tokens实现20倍推理量增长[20] - 在数学编程等可验证领域通过自我纠错机制实现答案准确率提升[13][22] - 蒸馏版本在7B参数设备运行效果优于直接应用RL训练[35][38] 行业影响与趋势 - 推理模型需求推动GPU算力增长20倍测试时计算成为新瓶颈[31][33] - 开源模型促使多厂商性能差距缩小行业竞争从数据规模转向训练方法创新[34] - 550万美元训练成本显示高效实验设计重要性(最终测试仅占小部分成本)[27][29] 应用场景拓展 - 本地化部署支持MacBook等设备通过Ollama开源软件实现离线推理[36] - 量化技术进一步降低设备门槛推动边缘计算场景落地[37] - 可验证领域(数学/代码/谜题)成为推理模型优先落地方向[14][26]