数据效率提升

搜索文档
兰德:2025人工智能算法进展:进步调查与近期未来预测报告
欧米伽未来研究所2025· 2025-04-28 05:43
人工智能算法改进的本质与维度 - 算法改进定义为在特定任务上带来更好性能或减少计算资源需求的变化,改进可能是主观或客观的[3] - 强度边际改进关注效率,包括减少输入需求或在相同输入下获得更好性能[3] - 广度边际改进涉及新能力或应用领域的扩展,如解决新问题类别[3] - 改进可发生在训练阶段、训练后调整阶段或推理阶段,训练阶段改进尤为重要[3] 人工智能算法进步的历史与现状 - 算法进步在人工智能性能提升中贡献50%到100%的改进[4] - 大型语言模型性能提升中5%到40%归功于算法改进[4] - Transformer架构和缩放定律是带来性能提升的关键创新[4] - 算法进步速度无明确共识,部分研究预测每年半个数量级的改进[4] 算法改进的主要渠道 - 高影响潜力渠道包括数据合成与优化以及数据效率提升[6] - 数据合成与优化涉及生成合成数据或精简现有数据以改善训练数据集[6] - 数据效率提升包括开发计算成本更低或迭代效果更好的算法[6] - 潜在突破性渠道是开发更符合商业实用性能衡量标准的替代训练标准[7] 算法进步的案例:DeepSeek-V3 - DeepSeek-V3采用专家混合架构,实现高效推理和经济高效的训练[8] - 模型仅需2.788M H800 GPU小时完成训练,优于其他开源模型[8] - 采用多头潜在注意力机制、新负载平衡策略和多标记预测训练目标[8] - 训练后进行监督微调和强化学习以与人类偏好保持一致[8] 人工智能算法的近期未来发展 - 三种可能情景:数据限制成为瓶颈、算法无法有效扩展、算法与数据协同发展[9][10][11] - 数据限制情景下小型专注系统可能主导市场[9] - 算法无法扩展情景下小型系统可能占据主导地位[10] - 协同发展情景下大型模型可能继续主导并出现实质性突破[11] 人工智能进展的指标与政策思考 - 人工智能性能已接近或超过人类在九个技术性能基准上的表现[12] - 基准性能趋于稳定可能表明平台期或转向更复杂挑战[12] - 政策制定需关注数据隐私、共享规定或增加基础研究投资[12] - 安全和伦理问题日益重要,需技术与政策层面共同努力[12] 未来知识库资源 - 未来知识库拥有超过8000篇重要资料,每周更新不少于100篇[15] - 精选报告包括牛津、麦肯锡、斯坦福等机构的前沿研究[16] - 涵盖人工智能安全、超级智能、能源与人工智能等主题[16]