Jamba
搜索文档
斯坦福最新论文,揭秘大语言模型心智理论的基础
36氪· 2025-09-24 19:04
大模型心智理论研究进展 - 斯坦福大学近期发表于《npj Artificial Intelligence》的论文揭示,大型语言模型(LLM)中驱动“心智理论”(ToM)能力的关键参数仅占模型总参数的0.001%,表明该复杂社交推理能力高度集中于一小部分神经元上[2][8] - 研究采用基于Hessian矩阵的敏感度分析方法,精确测量了模型中每个参数对特定任务的重要性,发现关键参数呈现出结构化的低秩特性,并主要集中在注意力机制的查询(Query)和键(Key)矩阵中[7][8] 模型心智能力的技术基础与脆弱性 - 研究发现,使用RoPE(旋转位置编码)架构的模型(如Llama、Qwen)其心智能力具有脆弱性,当对关键的0.001%参数进行扰动时,模型会丧失上下文定位能力,导致心智能力崩溃[8][14] - 相比之下,未使用RoPE的Jamba模型在经受同样参数扰动后,其心智能力未受影响,表明这种脆弱性与特定的技术选择(RoPE)直接相关[8] - RoPE通过为每个词在序列中的位置赋予独特的旋转操作来编码上下文顺序信息,其运作依赖于特定的“主导频率激活”模式,而心智核心参数的作用与此模式精确对齐[9][10][11] 高级认知能力的涌现路径 - 论文提出了智能涌现的路径模型:首先,模型需要像RoPE这样的强大“GPS系统”来构建对语言序列和结构的精确理解,这是所有高级认知能力的绝对前提[15] - 其次,在有序的语言世界模型基础上,模型通过统计学分析内化语言中蕴含的世界规律,例如动词时态变化、时间副词与事件先后顺序的关联,从而模拟因果关系[16][19] - 最终,心智理论等高级能力被视作模型在掌握词语定位、意义构建及时间因果等通用机制后产生的一种涌现属性,而非孤立的认知模块[20]
3700 次预训练寻找 “线性注意力” 非共识,MiniMax-01 开发者讲述 4 年探索
晚点LatePost· 2025-03-09 20:00
线性注意力机制的发展历程 - 线性注意力机制从2021年开始探索,当时被视为"看起来很美好的泡泡",但公司团队坚持投入研发 [5][21] - 2023年底验证了15B规模的纯线性方案效果接近Transformer,但发现召回能力存在缺陷 [35] - 最终采用7层线性注意力混合1层Softmax注意力的架构,在4560亿参数模型上实现应用 [36][37] 技术优势与验证过程 - 线性注意力理论计算复杂度从二次降为线性,长序列处理速度比Full Attention快2700倍 [11][44] - 通过3700次预训练测试验证技术可行性,涵盖不同参数规模和架构方案 [41][42] - 在7B参数以上模型规模时,线性注意力优势开始明显显现 [16][17] 行业竞争格局 - 线性注意力与稀疏注意力是当前两大改进方向,2023年后线性方向热度上升 [17] - 公司认为线性架构上限更高,未来在长文本赛道具备优势 [50][51] - 目前行业对线性注意力仍存在非共识,部分认为其属于有损优化 [52][53] 产品化与战略布局 - 公司将80%研发资源投入线性架构模型开发,视为重大战略转型 [31][48] - 下一代计划推出深度推理原生多模态模型,预计4-5月发布 [58][60] - 开源4560亿参数模型MiniMax-01,但未提供小尺寸版本 [57] 技术挑战与解决方案 - 线性注意力存在GPU并行化难题,通过Lightning Attention提升实际运行效率 [22] - 召回能力缺陷通过混合架构解决,测试不同比例后选择1:7方案 [36][38] - 多模态实现采用adapter形式而非原生方案,以快速验证效果 [48]