Workflow
Daily Spark
icon
搜索文档
Macaron AI's Mind Lab Sets New Benchmark with Trillion Parameter RL at 10% Cost, Now Integrated Into NVIDIA Megatron
Globenewswire· 2025-12-08 18:00
行业趋势:从规模扩张到经验智能 - 行业认识到当前最大模型的关键局限性:尽管每次更新都能达到惊人的基准测试成绩,但它们经常在现实世界的细微差别和“长尾”情况上犯错 [5] - 仅向问题投入更多数据和参数正在产生收益递减 前沿模型可以通过律师资格考试或生成代码,但仍然会犯基本错误 [6] - 新兴共识是,真正“智能”的行为可能需要更多东西:从经验中持续学习的能力 [6] - 人工智能行业可能正在走出盲目规模扩张的时代,进入“经验智能”时代 [36] 公司战略与愿景 - Macaron AI的核心理念是经验驱动智能,超越对规模定律的盲目遵循,并闭合现实世界使用与模型学习之间的循环 [7] - 公司主张,从真实用户反馈中进行训练,比仅仅增加更多预训练数据能带来更大的性能提升,这一转变被称为“经验智能”的崛起 [7] - 公司的愿景是让人工智能更像人类一样进化:通过与用户的真实互动不断更新自己 [8] - Macaron AI旨在成为经验驱动时代真正的个人人工智能代理,而Mind Lab是实现这一目标的引擎 [9] - 公司希望被视为在其消费产品之下拥有“前沿研究堆栈” [10] - 通过公开分享这些进展,并与NVIDIA和字节跳动等平台集成,Macaron AI正以可信的方式融入更广泛的人工智能社区 [35] - 公司不仅是在包装他人的大语言模型,而是在发明让AI学习和适应的新方法 [35] Mind Lab研究部门 - Mind Lab是Macaron AI背后的核心研究部门,由一支10人的全明星研究团队组成,在人工智能领域根基深厚 [10] - 团队成员来自OpenAI和DeepMind等组织,以及清华大学、麻省理工学院和康奈尔大学等顶尖大学的校友 [10] - 该团队在强化学习、大规模优化和人工智能系统等领域合著了超过200篇论文(被引用超过30,000次) [10] - Mind Lab的使命不是赢得参数数量竞赛,而是开辟一条通往人工智能智能的不同道路 [13] - 该实验室专注于允许AI智能体从交互式经验中学习的算法,无论是来自用户的反馈、环境探索还是解决下游任务 [13] - Mind Lab作为实验智囊团,将经验智能的概念转化为具体技术 [14] - 通过其正式亮相和今天公布的成果,Macaron AI向行业表明,它不仅仅是另一个包装其他LLM API的应用程序,而是一个拥有全栈创新能力的AI创新者 [14] 技术突破:万亿参数强化学习效率提升 - Mind Lab团队成为使用低秩适应技术在开源万亿参数AI模型上运行高性能强化学习的先驱,且仅使用通常GPU预算的约10% [4] - 这意味着以前可能需要数百或数千个GPU的工作,现在只需十分之一即可完成 [4] - 在万亿参数模型上实现高性能强化学习是一项 monumental 的壮举,通常需要“千GPU级”计算 [15] - 与常规方法相比,其基于LoRA的强化学习流程仅使用预期GPU计算的约10% [15] - 团队通过同步 rollout 和训练架构,将每次强化学习训练迭代的时间缩短了超过6倍 [15] - 他们以约10%的常规训练成本实现了所需的模型对齐和性能 [15] - 通过将混合并行策略与LoRA微调相结合,Mind Lab的系统可以训练和适应真正庞大的模型而无需“破产” [16] - 今年早些时候,Macaron AI曾创下仅用48个H100 GPU训练6710亿参数模型的基准 [16] - 现在,随着1万亿参数强化学习训练的演示,他们实现了更大的飞跃 [16] - LoRA方法仅影响小于0.5%的参数,通过插入微小的低秩更新矩阵来适应模型 [16] - 这种低秩调整可以保留超过90%的全参数微调性能,同时仅使用一小部分计算资源 [16] - 在Kimi K2模型上的基于LoRA的强化学习,仅需全参数训练10%的GPU占用,即可实现相同的对齐质量 [19] - 训练运行表现出平滑、可靠的学习曲线,奖励和任务成功率稳步提高,没有不稳定或灾难性崩溃 [19] - 下游评估证实,模型在获得更精确的任务对齐的同时,保留了其广泛的通用能力 [19] 开源贡献与行业影响 - Mind Lab开源了核心强化学习算法,并将其优化贡献给了主要的人工智能框架 [21] - 他们的技术已被合并到NVIDIA的NeMo Megatron-Bridge和字节跳动的VolcEngine RL库中 [21] - 这意味着任何使用这些框架的组织现在都可以利用Macaron AI的方法进行大规模的基于LoRA的强化学习 [21] 技术创新:记忆扩散与智能遗忘 - Macaron AI的“记忆扩散”重新构建了AI存储和更新信息的方式,不是将记忆视为外部数据库或过去对话的简单回放,而是持续在智能体轨迹上重新压缩其记忆 [22] - 这种方法的核心是一个三步循环:掩码-分配-重填 [23] - **掩码**:系统识别并掩码掉内部记忆中被视为低价值或过时的部分 [24] - **分配**:Macaron AI根据估计的重要性,智能地将其固定的记忆预算分配给不同的信息片段 [24] - **重填**:模型通过重新生成重要信息的压缩版本来填充被掩码的槽位 [24] - 这种机制使Macaron AI拥有了一种类似于人类记忆的智能遗忘能力,关键经验和高价值信息被高保真地保留,而琐碎或冗余的细节逐渐淡化为抽象摘要或被完全丢弃 [26] - 通过持续分类和压缩其记忆流,Macaron AI维持了连贯的长程推理,而无需臃肿的上下文窗口,回忆过去的成本基本保持恒定,与对话长度无关 [26] 产品升级与应用成果 - **应用生成速度提升10倍**:根据用户请求创建定制化应用的过程显著加快,过去需要约20分钟,现在通常在2分钟或更短时间内完成,速度降低了90% [29] - **社交协作**:引入多用户群组聊天功能,用户可邀请朋友、家人或同事加入由AI驱动的对话,Macaron AI充当整个团队的协调者和创意伙伴 [29] - **“每日火花”个性化推送**:推出根据用户过去互动、兴趣甚至情绪生成的AI策划每日摘要,内容范围从诗歌、哲学思考到健康提示和利基新闻简报 [32] - **跨聊天和应用的统一记忆**:统一了自由形式聊天和迷你应用背后的记忆,信息在两者之间无缝共享,形成了一个关于用户的互联知识库 [34] - 这些升级都源于Mind Lab在大型模型效率和长期学习方面的基础工作 [34]