参数共享 - 财报，业绩电话会，研报，新闻

参数共享

搜索文档

量子位· 2025-07-17 17:03

谷歌MoR架构创新 - 推出全新底层架构Mixture-of-Recursions（MoR），首次在单一框架中实现统一参数共享与自适应计算资源分配，推理速度提高2倍且KV内存减半[1][3][7][9] - 采用递归Transformer结构，通过递归块复用共享参数池，相比标准Transformer减少独特参数数量[10][13] - 包含三种参数共享策略：Cycle循环复用层、Sequence连续复用同一层，提升分布式训练效率并消除计算"气泡"[11][12][13] 动态路由与KV缓存机制 - 动态路由机制通过轻量级路由器为每个token分配不同递归深度，集中计算资源处理复杂token，分为Expert-choice路由和Token-choice路由[15][17] - KV缓存策略包含Recursion-wise缓存（仅缓存活跃token的KV对）和Recursive KV共享（复用首次递归的KV对），降低内存和IO需求[15][18] - 路由机制突破固定思考深度限制，Expert-choice路由性能优于Token-choice路由[17][22] 性能表现与效率提升 - 在16.5e18 FLOPs训练预算下，MoR参数减少50%，验证损失更低且少样本准确率达43.1%（vanilla模型42.3%）[19][20] - 训练20B token时减少25% FLOPs，训练时间缩短19%，峰值内存减少25%[21] - 360M规模MoR在推理吞吐量评估中优于vanilla模型，递归深度增加使KV缓存占用减少[25][26] 架构演进与行业影响 - 谷歌持续通过架构创新重构计算范式，如MoE（混合专家模型）系列从2017年LSTM层应用到2023年Gemini 1.5 Pro分层架构[27][28][30] - MoE突破全连接模型缺陷，成为超大规模模型优先选择，TokenFormer等可扩展架构为千亿级模型迭代提供可能[31] - 行业将MoR视为潜在Transformer替代方案，其统一参数共享与自适应计算的特点可能重塑AI底层架构[4][32]

参数共享

自适应计算

人工智能

Mixture-of-Recursions（MoR）

Mixture-of-Recursions（MoR）

Transformer