Transformer
搜索文档
3700 次预训练寻找 “线性注意力” 非共识,MiniMax-01 开发者讲述 4 年探索
晚点LatePost· 2025-03-09 20:00
线性注意力机制的发展历程 - 线性注意力机制从2021年开始探索,当时被视为"看起来很美好的泡泡",但公司团队坚持投入研发 [5][21] - 2023年底验证了15B规模的纯线性方案效果接近Transformer,但发现召回能力存在缺陷 [35] - 最终采用7层线性注意力混合1层Softmax注意力的架构,在4560亿参数模型上实现应用 [36][37] 技术优势与验证过程 - 线性注意力理论计算复杂度从二次降为线性,长序列处理速度比Full Attention快2700倍 [11][44] - 通过3700次预训练测试验证技术可行性,涵盖不同参数规模和架构方案 [41][42] - 在7B参数以上模型规模时,线性注意力优势开始明显显现 [16][17] 行业竞争格局 - 线性注意力与稀疏注意力是当前两大改进方向,2023年后线性方向热度上升 [17] - 公司认为线性架构上限更高,未来在长文本赛道具备优势 [50][51] - 目前行业对线性注意力仍存在非共识,部分认为其属于有损优化 [52][53] 产品化与战略布局 - 公司将80%研发资源投入线性架构模型开发,视为重大战略转型 [31][48] - 下一代计划推出深度推理原生多模态模型,预计4-5月发布 [58][60] - 开源4560亿参数模型MiniMax-01,但未提供小尺寸版本 [57] 技术挑战与解决方案 - 线性注意力存在GPU并行化难题,通过Lightning Attention提升实际运行效率 [22] - 召回能力缺陷通过混合架构解决,测试不同比例后选择1:7方案 [36][38] - 多模态实现采用adapter形式而非原生方案,以快速验证效果 [48]
【广发金工】神经常微分方程与液态神经网络
广发金融工程研究· 2025-03-06 08:16
神经常微分方程与液态神经网络 - 神经常微分方程(Neural ODE)通过将离散残差结构连续化,提出用同一常微分方程求解无限堆叠残差结构的参数,显著降低计算复杂度 [1][5][6] - 液态神经网络(LTC/NCP/CFC)基于Neural ODE思想,将循环神经网络离散时间步连续化,提升表征能力并增强抗噪声鲁棒性 [2][13][28] - LTC网络通过生物神经元启发的微分方程设计,在时间序列预测任务中相比传统RNN提升5%-70%性能 [14][15][20] - NCP网络模仿线虫神经系统结构,采用稀疏连接和分层设计,参数量仅为LSTM的4.3%(1,065 vs 24,897)但保持相当性能 [26][31][32] - CFC网络通过推导LTC微分方程的闭式解,避免数值求解过程,训练速度比ODE-RNN快97倍(0.084 vs 7.71分钟/epoch) [33][36][37] 量化选股实证结果 - 液态神经网络显存需求仅为GRU的5%-67%(CFC 6Gb vs GRU 120Gb),实现同等选股效果下大幅降低计算资源消耗 [40][41] - 不同液态网络因子与GRU的相关系数0.69-0.82,显示模型能从相同数据中提取差异化价量特征 [42][43] - NCP结构在2020-2024年回测中表现最优,多头年化收益率24.38%超过GRU的24.21%,夏普比率0.95优于GRU的0.88 [44][50][54] - CFC网络在2024年极端市场中保持稳健,多空年化收益率42.64%显著高于GRU的39.36% [45][58] - 液态神经网络整体多空夏普比率5.22-5.66,优于传统GRU的5.22,显示更强的风险调整后收益能力 [45][50] 技术优势比较 - 参数量:NCP(19神经元)仅253个突触连接,全连接LSTM(64神经元)需24,640个连接 [25][26][32] - 计算效率:CFC训练速度达ODE-RNN的92倍(0.097 vs 8.49分钟/epoch),LTC采用半隐式欧拉法平衡精度与速度 [17][36][37] - 鲁棒性:NCP在噪声环境下碰撞次数比LSTM低63%,异常数据识别准确率保持85%以上 [28][30] - 可解释性:NCP神经元分工明确,可通过微分方程分析单个神经元对决策贡献 [32][38] - 内存占用:CFC前向传播内存复杂度O(1),传统BPTT方法为O(L×T) [19][33]
AI芯片的双刃剑
半导体行业观察· 2025-02-28 11:08
软件编程与人工智能建模的范式转变 - 传统软件编程依赖明确的指令代码,适合确定性场景但缺乏动态适应能力[2] - AI软件建模通过数据训练学习模式,使用概率推理处理不确定性,模型复杂度体现在参数规模而非代码量[3] - 高级AI模型如LLM包含数千亿至数万亿参数,依赖多维矩阵数学运算,每个时钟周期并行处理所有参数[3] 处理硬件的影响 - CPU采用串行执行架构,多核多线程提升并行性但仍无法满足AI模型的并行需求[4] - 高端CPU计算能力达几GigaFLOPS,内存带宽峰值500GB/s,内存容量达TB级[5] - GPU提供PetaFLOPS级性能,比CPU高两个数量级,但运行GPT-4时效率可能降至理论峰值的5%[6] - GPU高功耗引发可持续性问题,专用AI加速器(如ASIC)在计算效率和能耗上更具优势[7] AI加速器的关键属性与挑战 - 关键指标包括批处理大小和token吞吐量,需平衡延迟与吞吐量需求[8] - 大批量提升吞吐量但增加内存带宽压力,实时应用(如自动驾驶)需批量大小为1以最小化延迟[12] - 连续批处理技术动态添加输入,减少延迟并提升整体效率[13] - Token吞吐量依赖计算效率和数据移动优化,需首次token输出时间最短[14][15] 内存与计算瓶颈 - 内存带宽是主要瓶颈,大批量导致缓存未命中及访问延迟增加[9][19] - 高带宽内存(HBM3)和智能片上缓存可缓解内存瓶颈[21] - LLM依赖并行矩阵运算和注意力机制,计算瓶颈需专用硬件(如矩阵乘法单元)和混合精度计算(FP8)解决[19][22] 优化方向 - 硬件创新包括类似寄存器的缓存结构、专用加速器设计及高效数据流架构[21][22] - 软件优化涵盖定制化内核、梯度检查点减少内存占用、管道并行提升吞吐量[23] - 混合精度计算在保持模型精度前提下降低内存带宽需求和计算开销[22] 行业技术趋势 - Transformer架构需每个token关注全部历史token,增量Transformer按序计算token提升流式推理效率但增加内存需求[16] - 不规则token模式和自回归模型依赖可能导致硬件管道停滞,需优化调度策略[17] - AI加速器仍处早期阶段,需结合内存架构创新与数据流优化以突破性能限制[18][20][24]