Workflow
全模态融合
icon
搜索文档
AI产业速递:从DeepSeek V3
2025-12-03 10:12
**行业与公司** * 行业涉及人工智能与大模型领域 重点包括强化学习 合成数据 稀疏化技术 注意力机制优化等方向[1] * 核心公司包括 Deepseek DeepMind OpenAI 以及提及的谷歌 阿里等大型科技公司[1][7][9] **Deepseek V3 2 模型的核心技术特点与改进** * 架构上引入 DSA 机制取代 MLA 机制 通过位置编码计算索引选取关键注意力参数 优化推理效率 尤其在复杂任务中减少冗长思维链的计算负担[1][3] * 后训练阶段的 C9 版本投入约10%的预训练计算量 显著提升模型在复杂任务(如代码调试)中的强化学习能力 达到全球领先水平[1][3][5] * 采用高效的上下文管理策略 智能处理用户频繁开启新任务 多轮对话及模糊输入 有效降低推理成本[1][3] * 使用大量人类专家编写并增量训练生成的高难度合成数据 比例较之前增加一倍以上 对后续强化学习阶段至关重要[1][3][4][6] * DSA 机制结合筛选和缓存技术 将 KV 缓存量降至50%以下 筛选机制可减少90%的 KV 缓存占比[18] * 在稠密阶段冻结部分参数 仅用少量参数(例如7 000亿参数模型中用20亿参数)进行初步规律提取 再进行稀疏训练 提高效率[18] **强化学习技术的最新发展与影响** * DeepMind 的新框架结合 Rubik‘s 规则提示机制 使系统能边思考边执行并根据环境反馈调整策略 提高了强化学习效率[8][9] * 该框架促使大型科技公司加速探索多模态视频和图像领域的应用 推动2025年相关模型发展[1][9] * 强化学习所需算力受数据条目数量 数据采样系数(简单任务为2-4倍 高难度任务可达128倍) 思维链输入输出长度等因素影响 浮动范围可达50倍[13][14] * 预计到2026或2027年 强化学习所需算力将接近预训练算力的一半 国内模型该比重可能达到20%至30%[15] **合成数据的作用与优势** * 合成数据比例大幅增加 其效果与难度系数密切相关 高难度 高质量的合成数据极大提升了模型在强化学习阶段的性能[6] * 在缺乏真实数据的极罕见长尾场景(如汽车高速碰撞)中 合成数据尤为重要 可通过智能体思维生成新个体和模拟环境来提升模型性能[16] **开源与闭源模型的趋势变化** * Deepseek 完成了全面的后训练过程并将结果开源 支持 Agent 调用能力 使得开源模型在功能上可与闭源模型媲美 可能引领开源项目新趋势[7] **稀疏化技术与未来模型价格趋势** * 稀疏化技术降低了训练算力要求并提升了训练上限 激发开发更大参数模型的动力[2][19] * 预计到2026年模型价格将大幅下降 可能降至现在的1/5 这将激发更多创业公司参与大模型开发[2][20] **预训练算力消耗现状与发展** * 全球主要厂商预训练算力需求显著提升 美国一些领先企业算力达10^25到10^26 FLOPS 相比 DeepMind(10^24 FLOPS)增长50到100倍[7] * 预训练算力需求增速趋缓 但通过基础设施效率提升(如TPU集群优化) 大规模预训练依然有发展潜力[17] **下一代大模型发展方向** * 发展方向集中在全模态融合(文本 图片 视频 音频) 与物理世界数据交互 以及具备更自适应推理机制 更强人机交互和长时间记忆能力[22] * V4 模型将基于现有高版本推进 重点验证和增强 Agent 功能[25] **大模型能力上限的迁移** * 后训练的潜力越来越大 模型能力上限正从预训练向后训练迁移 尤其在人文创意等没有固定答案的领域 其能力逐渐被打开将吸引更多应用厂商[10][11] **垂直场景中的应用示例** * 以电商平台AI万能搜索为例 通过多轮对话机制 基于用户历史数据 prompt响应和反馈数据 不断优化推荐结果 满足个性化需求[12]