Workflow
Token-indexed parameters
icon
搜索文档
Dense、MoE之外第三条Scaling路径:交大提出JTok模块,省1/3算力
机器之心· 2026-03-02 23:16
行业背景与挑战 - 大模型发展遵循Scaling Law,通过堆砌参数和数据提升性能,但传统稠密模型扩展导致参数与计算量线性绑定,边际收益骤减,甚至出现性能倒退,扩展路径面临瓶颈[2] - 为解耦参数与计算量,业界曾寄望于混合专家模型,但其存在样本效率低、路由负载均衡困难、显存与通信压力大导致推理吞吐量低于稠密模型等代价[2] 技术创新:JTok与JTok-M - 上海交通大学与小红书团队提出全新扩展维度“token-indexed parameters”,通过为每个词元引入调制向量,以查表结合逐元素调制方式提升模型容量,几乎不增加算力和显存开销[3] - JTok模块为静态调制,作为轻量插件挂载于Transformer各层,通过词元ID查表获取调制向量,与MLP残差逐元素相乘,实现无侵入式容量注入,不显著增加浮点运算次数和通信瓶颈[10][11][12] - JTok-M模块为动态调制,引入调制向量池和上下文路由器,根据词元当前隐状态动态选择并融合多个候选向量,实现语义敏感、稀疏激活的上下文感知能力[15][16] - 该技术采用查表式插件与旁路异步调度范式,有效隔离计算与访存压力,训练吞吐损失不到7%,推理吞吐损失控制在7.3%以内,GPU侧几乎无额外显存占用[18] 性能与效率收益 - 在650M至61B模型规模中,JTok-M显著降低损失,并在下游任务大幅提分:MMLU提升4.1个百分点,ARC提升8.3个百分点,CEval提升8.9个百分点[5] - 达到相同性能,JTok-M可直接节省约35%的训练算力需求,该节省比例在不同模型规模和训练预算下均成立[26] - 在1.5B参数的稠密基座模型上,外挂JTok模块后,14项下游任务平均准确率提升4.32个百分点,相对收益近20%,其中通用知识推理任务MMLU提升4.6个百分点,科学常识推理任务ARC-C提升5.8个百分点[36][37] - 在MoE基座模型上,JTok-M提升效果更显著,例如在总参数量3.2B的MoE模型上,平均准确率提升5.59个百分点,科学常识推理任务ARC-C提升7.25个百分点,数学解题任务GSM8K提升6.31个百分点[39] - 在17B总参数量的大型MoE模型上,JTok-M在训练早期即显现优势,最终在MMLU任务上提升约4个百分点,在ARC-C、CEval等任务上提升8-9个百分点[40][44] 对Scaling Law的理论拓展与影响 - JTok-M打破了传统性能与算力的绑定逻辑,将“token-indexed参数”确立为与主干参数、数据量完全正交的第三大模型扩展维度[4][31] - 理论分析表明,JTok-M的新增参数通过有效折扣因子融入Scaling Law框架,使“性能-算力”帕累托前沿曲线整体下移,实现了扩展收益与主干模型规模无关的稳定性[24][25] - 实验证实,固定主干模型与数据量,仅扩展JTok-M自身参数规模,模型验证损失随参数增加近乎线性下降,每翻倍一次参数,测试损失稳定降低约0.0118,展现出清晰可预测的幂律缩放规律,且无性能饱和迹象[29] - 该技术为行业提供了除增加参数、增加数据之外的第三条可扩展路径,使模型容量扩展能够摆脱对计算量的线性依赖,实现低代价的性能提升[33][34] 技术定位与行业比较 - JTok-M与DeepSeek的Engram、Meta的STEM同属通过扩展嵌入参数来提升模型容量的研究方向,但设计哲学不同:JTok-M定位为探索嵌入参数作为正交、独立的扩展维度,彻底解耦模型容量与浮点运算次数[43] - 相较于Engram的静态知识查找机制和STEM的侵入式前馈网络改造,JTok-M采用旁路轻量调制机制,结合了静态词元ID索引与轻量动态路由[43] - 该工作的核心洞察在于系统性证明了词元索引参数同样服从平滑的幂律,并能从根本上优化模型性能与计算的帕累托前沿[43]