MoE(混合专家模型)
搜索文档
对话张津剑:4年前没人相信AGI,MiniMax如今活出3000亿
投中网· 2026-02-26 09:57
绿洲资本的投资策略与成立背景 - 公司成立于2019年10月,成立初期即遭遇疫情,但基于“做最坏打算”的策略,其第二支美元基金募集顺利,所有老投资人增加了认购[3] - 2022年,在美元加息、IPO市场停滞的背景下,行业“Down round”融资占比从8%上涨到20%,但公司选择坚守中国市场,相信新一代创始人[3][4] - 公司通过“摆龙门阵”(四川俚语,指天马行空的聊天)的交流方式,在2022年11月明确将AI作为核心投资方向,并预测了新一代GPT模型的发布[4][5] AI投资的决策与布局 - 公司在2022年敲定AI主题后,超过10个AI项目在2023年初完成投资,当时中国AI领域被广泛视为“拙劣的模仿者”,公司是坚定的“少数派”[7] - 投资决策基于对技术世界观变革的认知,例如从Stability AI的开源中看到“去噪”哲学与公司理念吻合,并深入研究Transformer模型[12][13] - 公司认为AI六小龙中,只有智谱AI和MiniMax成立于2022年之前,这种“时间戳”和“真正相信”的特质是支持的关键[14] 对创业者特质与筛选标准 - 公司坚信AI是年轻人的机会,投资原则之一是不投80前的创业者,并系统性投资了一批95后创业者[15] - 筛选创业者时,技术仅是因素之一,更看重综合能力,公司观察到商汤系出身的创始人普遍更重视公司运营[15] - 投资决策分为“心动”和“心安”两种,最看重的是让投资者感到“心安”的机会,这源于创业者展现的专注和对核心问题的坚持[27][28] - 公司认为年轻创业者最宝贵的特质是“没有被磨掉的勇气”,即敢于相信并实践“虚构”的愿景,而非仅仅停留在口头[30][31] 对AI行业趋势的核心判断 - 公司认为大语言模型和具身智能是相辅相成、共同指向AGI(通用人工智能)的两条路径,因此在2023年3月将两者列为同等重要的投资主题[18][20] - 实现AGI必须突破多模态,这包括视频、语音等虚拟模态,也包括温度、触觉等物理模态[20] - 基于多模态判断,公司在具身智能领域进行了系列投资,包括千寻智能(大脑)、逐际动力(小脑)、因克斯(一体化关节)及Hypershell(人类增强)等,且多为第一轮投资人[22] MiniMax的投资案例与启示 - MiniMax于2026年1月9日在港交所IPO,挂牌首日大涨109%,至2月20日总市值突破3000亿港元,成为最快突破该市值的科技型创新公司[7] - 创业者闫俊杰的特质(极度专注、不看竞争、情绪稳定)是打动投资人的关键,例如在融资艰难时,他因坚持“中国创新,走向全球”的原则而拒绝了某海外投资人的邀约[10][28][35] - MiniMax是亚洲首个成功落地MoE(混合专家模型)的团队,并坚持“只有极端数据才有价值”的反共识数据观,这些决策事后被证明正确[34] - 该案例给公司最大的启发是“专注的力量”,并认为这个时代对专注者的反馈正变得越来越快[40] 基金的投资方法论与教训 - 公司提出“参赞生命力”的理念,认为投资是陪伴创业者活出生命应有的状态,VC最好的状态是每天都能见到更有生命力的创业者[44] - 投资核心逻辑是“去掉噪声,等待信号”,警惕追逐热点,例如当前将消费电子领域“万物皆AI,AI皆硬件”的浪潮视为巨大噪音[50] - 最大的教训是AI时代对创业者的“专注度”要求更高,需警惕“先行者的诅咒”,即资源强的创业者因机会过多而分散精力,无法持续解决核心问题[46] - 公司在投资标准上明确选择“愿景驱动型”而非“资源驱动型”(攒局者)创业者,认为一个基金很难用两套标准投项目,因此必须做取舍并保持克制[48] 对AI未来的展望与公司定位 - 认为AI是社会变革,未来15-20年将走过工业革命150-200年的历程,核心是AI的主体性构建和人类自身的主体性构建两大问题[52] - 对于AI主体性构建,公司策略是继续投资AI和具身智能,并关注前沿科学;对于人类主体性构建,策略是通过内容创作等方式“参赞生命力”,帮助人们活出自己[52] - 公司定义自身的意义为:陪伴创业者活出愿景,激发更多人活出自己,那些活出来的地方就是绿洲[53]
OpenAI突然开源新模型,99.9%的权重是0,新稀疏性方法代替MoE
36氪· 2025-12-15 11:29
文章核心观点 - 一种名为Circuit Sparsity的技术通过构建极致稀疏、功能解耦的大语言模型变体,旨在从根本上解决传统稠密Transformer模型的黑箱问题,实现模型决策过程的可解读与可追踪[4] - 该技术路径通过严格约束模型权重,仅保留极少数有效连接,形成类似电路图的清晰计算通路,与当前主流的混合专家模型在架构哲学上存在根本差异,并可能对后者构成长期挑战[5][7] - 尽管Circuit Sparsity在可解释性上取得突破,但其目前面临训练和推理计算量激增的严重瓶颈,短期内难以替代已在算力效率与性能平衡上成熟的MoE模型,属于AI可解释性研究的早期探索[14] 技术原理与架构 - 技术本质是GPT-2风格Transformer的稀疏化变体,通过严格约束使权重的L0范数极小,在训练中直接切断99.9%的无效连接,仅保留千分之一的有效通路,使信息沿固定路径传递[7] - 模型通过均值屏蔽剪枝等方法,为不同任务拆解出专属的最小功能电路,例如处理Python引号闭合任务仅需2个MLP神经元和1个注意力头构成核心电路,内含专门的引号检测器、类型分类器等模块[10] - 在预训练损失相同的前提下,稀疏模型的任务专属电路规模比稠密模型小16倍,且电路具备严格必要性与充分性,保留即能工作,删除任一节点则失效,实现了计算逻辑的精准追踪[12] 与混合专家模型的对比 - MoE模型通过门控网络拆分专家子网络并依赖路由器分配任务来近似稀疏性,核心目的是适配硬件的稠密矩阵计算需求,是一种粗糙的近似方法[12] - MoE架构存在割裂特征流形、导致专家同质化与知识冗余的缺陷,且专家间信息协同依赖复杂的负载均衡损失函数调控,稳定性堪忧,其专家功能边界模糊,无法实现微观机制的精准拆解[12] - Circuit Sparsity追求模型原生稀疏性,通过将特征投射到超大维度并严格限制有效激活节点,使每个特征变得单义、正交,从根源上解决了概念分散于多个节点的叠加问题,无需依赖路由器即可避免信息干扰[12] 当前局限与未来发展 - 该技术最突出的短板是算力成本极高,其训练和推理的计算量是传统稠密模型的100-1000倍,目前能力尚无法达到顶尖大模型水平[14] - 短期内,在算力效率与性能平衡上已很成熟的MoE模型预计仍是工业界的主流选择[14] - 未来克服稀疏模型训练效率低下有两条主要途径:一是从现有密集模型中直接提取稀疏电路以复用框架、降低成本;二是优化训练机制,从头训练出既原生可解释又能高效落地的模型[16]
OpenAI突然开源新模型!99.9%的权重是0,新稀疏性方法代替MoE
量子位· 2025-12-14 13:17
文章核心观点 - OpenAI开源了一种名为Circuit Sparsity的新型稀疏大语言模型,该模型通过将99.9%的权重约束为零,构建出类似电路图的清晰、可解释的内部计算路径,旨在破解传统稠密Transformer模型的“黑箱”问题[1][6] - 这种追求“原生稀疏性”的技术路线,与当前主流的混合专家模型在架构思路上形成对比,可能对MoE的发展路径构成挑战[8][18] - 尽管该技术在模型可解释性上取得突破,但其训练和推理计算量是传统稠密模型的100-1000倍,算力成本极高,目前能力尚不及顶尖大模型,短期内难以替代成熟的MoE架构[20][21] 模型技术原理与特点 - 模型基于GPT-2风格的Transformer架构,通过严格约束使权重的L0范数极小,将99.9%的连接“砍断”,仅保留千分之一的有效通路,形成类似电路导线的固定信息传递路径[10] - 模型通过“均值屏蔽”剪枝方法,为不同任务拆解出专属的“最小电路”,例如处理Python引号闭合任务仅需2个MLP神经元和1个注意力头[12] - 在预训练损失相同的前提下,稀疏模型的任务专属电路规模比稠密模型小16倍,且电路模块具备严格必要性与充分性,删除任一节点会导致任务失效,从而实现逻辑步骤的精准追踪[14][15] 与混合专家模型的对比 - MoE模型通过门控网络拆分专家子网络来近似稀疏性,核心目的是适配硬件的稠密矩阵计算需求[16] - MoE架构存在缺陷:一是割裂特征流形,导致专家同质化、知识冗余,依赖复杂负载均衡损失函数来维持稳定性;二是专家功能边界模糊,无法实现微观机制的精准拆解[17] - Circuit Sparsity追求“原生稀疏性”,通过将特征投射到超大维度并严格限制激活节点,使每个特征变得单义、正交,从根源上解决了概念分散于多个节点的叠加问题,无需依赖路由器等“Hack”手段[18] 当前局限与未来展望 - 该技术最突出的短板是算力成本极高,训练和推理计算量是传统稠密模型的100-1000倍,暂时达不到顶尖大模型的能力[20][21] - 研究团队提出了两种克服训练效率低下的方法:一是直接从现有密集模型中提取稀疏电路以复用框架、降低成本;二是优化训练机制,从头训练出高效且原生可解释的模型[23][24] - 这项工作被视为AI可解释性探索的早期一步,团队计划将技术扩展到更大模型,以解锁更复杂的推理电路[22]