纪要涉及的行业和公司 - 行业:AI行业 - 公司:DeepSeek、DCC、DPC、DPT、苹果、亚马逊、Meta、OpenAI、Stopic、RWE、NRW 纪要提到的核心观点和论据 1. DeepSeek进展及影响 - 进展:近期在预训练和后训练模型方面取得显著进展,推出136模型和RE模型,用2400张H800显卡和500万美元完成比GPT - 4强大的基座模型训练,性能仅次于GPT - 3.5 [2] - 金融市场影响:引发华尔街对高算力需求下降担忧,质疑巨额投资合理性,如特朗普牵头的Stargate计划融资5000亿美元,而DeepSeek低成本实现类似效果 [4] - 科技行业影响:采用开源模式,短期内可能导致非理性算力投入,长期促进总算力需求增长,推动企业通过算法创新提升性能 [2][4] 2. DCC大语言模型情况 - 市场反应:V3版本发布后,北美市场反应积极,APP下载量迅速超过竞品,全球访问量一周内达GPT - 3流量的三分之一,提升中国科技企业在美国民众中的形象 [2][8][9] - 行业和投资圈影响:引发广泛讨论,其他企业可能学习复现,AI投资者可减少算力和芯片投入,中小企业和个人开发者可商用,加速AI技术民主化进程 [10] - 受益公司:苹果和亚马逊受益最大,苹果可构建Apple Intelligence平台,亚马逊通过AWS平台上架DPC inferences [11] 3. DPC大语言模型创新点 - 复刻OpenAI关键技术,采用新数据标注方式,结合高质量数据冷启动和强化学习生成合成数据,降低成本并提高训练效率 [2][12] 4. 开放式大语言模型优势 - 性能与闭源模式接近,时间差距仅三个月;允许自由商用,中小企业和个人开发者可低成本进入市场,加速技术普及 [13] 5. DPT模型情况 - 创新算法:V3版本有四大创新点,MLA减少推理时间和显存需求,Deep CMOE架构实现高效推理,Multi - task Prediction提高上下文理解能力,但多token预测可能导致幻觉问题 [14][15] - 科研能力:团队科研能力强,擅长从1到2的工程实践,未来期待引领从0到1的创新 [19] 6. 海外大厂情况 - 模型发布及预训练:OpenAI和Meta处于模型发布后期,预训练接近尾声,不太可能借鉴DTC V3技术路径,拥有丰富算力资源,目标是提升模型性能 [20] - 未来突破:预计2025年发布新一代基础模型,取得显著性能提升 [24] 7. 强化学习对模型输出风格影响 - DeepSeek R1输出思维链过程震撼,文字活泼;SFPT输出严肃;DMC无标注数据,输出自由度高,直观呈现推理过程 [21][22] 8. DMC创新点 - 简化训练过程,仅训练政策模型,依赖推理模型思维链及合成数据;强调推理时间优化,提升推理能力 [23] 9. 推理模型发展 - 未来注重自我收敛和性能提升,中国企业若领先并开源将引发震撼,需不断实验优化 [29] 10. 预训练模型情况 - 发展趋势:过去两年参数规模大幅增长,推理模型测试阶段有提升空间 [25] - GPT - 5级别预训练挑战:高质量语料资源难获取,数据格式复杂需清洗,北美受法规限制,预训练时间增加 [31] - 收敛问题解决:2024年不能收敛问题基本解决,采用多种方法提升模型性能和收敛效果 [32][33] 11. 多模态与下一代大模型关系 - 多模态数据训练有前景但有局限性,图像与文字不兼容,转换训练效率低,突破速度可能不如纯文本模式 [34] 其他重要但是可能被忽略的内容 1. RWE强化学习模型快速复现原因是OUE测试阶段扩展、后训练时间短及高质量数据获取,其他厂商进展慢因决策流程长 [27] 2. DPC和RE模型蒸馏技术为行业带来创新机会,促进技术水平提高,因OpenAI之前限制企业发展 [28] 3. 中小团队研发周期快是因为决策流程简化,能迅速复刻推理模型 [30] 4. V3技术报告一个月后在海外引起关注,因发布时正值圣诞假期,且华尔街注意到O1模型成功 [26]
海外大厂开源模型预训练专家怎么看DeepSeek