Workflow
稀疏注意力
icon
搜索文档
反直觉: MoE混合专家模型和场景没什么关系
理想TOP2· 2025-08-29 00:01
混合专家模型(MoE)的核心机制 - MoE本质是稀疏注意力手段 旨在提高计算效率 实现小算力运行大模型的目标[1] - 通过提前选取对数据结果起决定作用的少量参数进行计算 近似实现全部参数计算效果 对最终输出影响极小[2] - 专家分配并非基于场景划分 而是数据驱动下的参数优化过程[1] 传统场景划分方式的局限性 - 固定场景对应专家模型会导致场景限制问题 遇到未见场景时无法处理[1] - 若按场景划分多个小模型分别训练 不符合MoE结构的本质设计[1] - 专人专用方式会造成参数利用率低下 部分专家可能永远无法被激活[2] 专家激活与分配机制 - 工作应均匀分配给每个专家 避免低触发率专家造成的参量浪费[2] - 每次可激活不同数量专家 实现算力动态分配[2] - 更难的问题可分配更多算力 同时提升效率和最终效果[2] 实际应用中的表现特征 - 不同专家可能自然形成特定场景偏好 但这是训练结果而非设计原因[3] - 高速场景可能频繁使用某子模型 超车场景可能使用另一子模型 这是数据驱动的自然分布[3] - 专家特长分化是模型训练的"果"而非主观设计的"因"[3]
R2还没来,但DeepSeek的秘密武器已经“剧透”了
虎嗅· 2025-07-31 15:58
DeepSeek R2还没来,但DeepSeek下一代模型的更新,已经提前在今年的ACL最佳论文中"剧透"了。 昨天,全球自然语言处理领域的顶级会议ACL公布了今年的最佳论文。 这个会议堪称自然语言处理领域的"世界杯",不仅是未来一两年大语言模型的风向标,而且从这里走出的顶尖技术,往往会迅速被全行业采纳。当年颠覆 了整个AI领域的Transformer架构,最初就是在这里崭露头角的。 而今年,一篇由DeepSeek和北京大学联合完成的论文斩获了"最佳论文奖":《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》。 从标题就能看出,这是一篇非常硬核的技术论文,关键词密度拉满:Sparse Attention(稀疏注意力)、Hardware-Aligned(硬件对齐)、Trainable(可训 练)…… 但即便如此,它依然值得所有关注大模型未来的人认真读一遍,因为它首次把稀疏注意力从理论推理带进了完整训练流程,在保持模型性能的同时,还带 来了高达11倍的推理加速。 论文第一作者北京大学硕转博研究生袁境 ...
知乎平台已沉淀858万个AI相关问题、2088万个AI专业回答丨聚焦WAIC 2025
国际金融报· 2025-07-27 20:23
知乎平台AI生态发展 - 知乎已成为AI开发者首发项目、首谈方向、首秀成果的核心阵地,聚集1600万科技与AI领域持续学习者和356万深度创作者,沉淀858万个AI相关问题和2088万个专业回答 [1] - 平台吸引DeepSeek、智元机器人、宇树等明星公司发布技术文章或新品动态,例如DeepSeek发布《DeepSeek-V3/R1推理系统概览》、稚晖君发布人形机器人灵犀X2、王兴兴分享宇树研发进展 [3] - AI创业者夕小瑶在知乎首发全球首个多Agent协作平台Teamo,字节跳动Trae 2.0核心开发者天猪分享AI结对编程技术 [3] WAIC 2025大会参与 - 知乎通过展位多维互动展示AI生态全景,包括硬核技术讨论和"知识王者PK"等趣味环节,知乎直答NFC装置成为人气焦点 [4] - 组织地平线研究员林天威、创伴智能创始人图灵的猫等数十位一线开发者组成"答主探展团",结合线上圆桌实时输出技术解读 [4] - 联合阿里云、百度、科大讯飞等14家AI企业发布《AI世界通行手册》,涵盖大模型到具身智能的科技全景 [4] AI技术前沿动态 - 月之暗面研发人员在知乎"团建式"分享技术进展,包括开源MoBA框架、Agent产品Kimi-researcher及MoE架构模型Kimi K2的研发历程 [3] - PNP机器人创始人包文涛指出大模型推动具身智能实质性突破,详解PNP机器人能力特点 [5] - AI Next联合创始人德里克文提出人类与AI共同创作新时代,曾合作AI艺术短片《花满渚》 [5] 创新活动形式 - 知乎在WAIC期间举办"开发者回血之夜"盐沙龙,数十位AI开发者通过开放麦形式分享前沿思考,融合技术与人文互动 [5]
3700 次预训练寻找 “线性注意力” 非共识,MiniMax-01 开发者讲述 4 年探索
晚点LatePost· 2025-03-09 20:00
线性注意力机制的发展历程 - 线性注意力机制从2021年开始探索,当时被视为"看起来很美好的泡泡",但公司团队坚持投入研发 [5][21] - 2023年底验证了15B规模的纯线性方案效果接近Transformer,但发现召回能力存在缺陷 [35] - 最终采用7层线性注意力混合1层Softmax注意力的架构,在4560亿参数模型上实现应用 [36][37] 技术优势与验证过程 - 线性注意力理论计算复杂度从二次降为线性,长序列处理速度比Full Attention快2700倍 [11][44] - 通过3700次预训练测试验证技术可行性,涵盖不同参数规模和架构方案 [41][42] - 在7B参数以上模型规模时,线性注意力优势开始明显显现 [16][17] 行业竞争格局 - 线性注意力与稀疏注意力是当前两大改进方向,2023年后线性方向热度上升 [17] - 公司认为线性架构上限更高,未来在长文本赛道具备优势 [50][51] - 目前行业对线性注意力仍存在非共识,部分认为其属于有损优化 [52][53] 产品化与战略布局 - 公司将80%研发资源投入线性架构模型开发,视为重大战略转型 [31][48] - 下一代计划推出深度推理原生多模态模型,预计4-5月发布 [58][60] - 开源4560亿参数模型MiniMax-01,但未提供小尺寸版本 [57] 技术挑战与解决方案 - 线性注意力存在GPU并行化难题,通过Lightning Attention提升实际运行效率 [22] - 召回能力缺陷通过混合架构解决,测试不同比例后选择1:7方案 [36][38] - 多模态实现采用adapter形式而非原生方案,以快速验证效果 [48]