Workflow
全球掀DeepSeek复现狂潮
华尔街见闻·2025-01-27 16:23

文章核心观点 全球掀起复现DeepSeek狂潮,开源对闭源取得胜利,大模型时代或进入分水岭,超强性能模型不再仅属于算力巨头;DeepSeek以低成本芯片训出突破性模型,威胁美国AI霸权,使大公司技术优势和高估值瓦解,英伟达股价动摇 [2][3][5] 各部分总结 30美金见证“啊哈”时刻 - UC伯克利博士生团队在CountDown游戏中复现DeepSeek R1 - Zero,成本不到30美金,结果出色 [7] - TinyZero项目采用R1 - Zero算法,应用于CountDown游戏,模型从简单输出进化出自我纠正和搜索策略 [8] - 消融实验表明基础模型性能是关键,额外指令微调非必要,具体RL算法不重要,长思维链能涌现且表现不错 [9][10][12] - 指令模型运行快、输出更具结构性和可读性,但最终表现与基础模型相当,模型推理依赖具体任务 [13][14] 7B模型复刻 - 港科大团队用8K个样本在7B模型上复刻DeepSeek - R1 - Zero和DeepSeek - R1训练,在复杂数学推理上结果强劲 [16] - 模型针对不同任务学习不同策略,在AIME、AMC、MATH等基准上准确率高,超越部分模型 [17][18] - 两种训练方法(SimpleRL - Zero和SimpleRL)仅用8K MATH样本,约第44步出现“啊哈时刻”,模型显现长CoT推理和自我反思能力 [19][20] 训练过程分析 - SimpleRL - Zero:训练中基准测试准确率稳步提高,输出长度先减后增,第40步左右出现自我反思机制 [23][27] - SimpleRL:先进行long CoT SFT预热,平均性能比RL训练前模型提升6.9个百分点,优于部分模型;训练动态与SimpleRL - Zero相似,初期输出长度减少 [28][29][32] HuggingFace复刻 - HuggingFace团队官宣复刻DeepSeek R1所有pipeline,项目Open R1进行中,发布一天星标冲破1.9k,获142个fork [33][34] - 复刻分三步:复现R1 - Distill模型、复现纯强化学习流程、展示从基础模型到RL调优模型的多阶段训练 [39] DeepSeek影响力 - DeepSeek应用在APP Store“效率”应用榜单挤进前三,登顶中美应用商店免费APP下载排行榜 [39] - 在Hugging Face中R1下载量登顶,从斯坦福到MIT,DeepSeek R1成美国顶尖高校研究人员“首选模型” [40]