Workflow
Curriculum RL
icon
搜索文档
非Transformer架构的新突破,液态神经网络的推理小模型只用900M内存
机器之心· 2026-01-21 17:35
行业技术架构现状 - Transformer架构自2017年由谷歌提出后,已基本垄断大模型领域,不采用该架构且能与主流第一梯队模型竞争的大模型凤毛麟角 [1] 液态神经网络与Liquid AI公司 - 液态神经网络是一种受秀丽隐杆线虫神经结构启发的连续时间模型,由多个简单动态系统通过非线性门相互调节组成,具有时间常数可变、通过求解微分方程得到输出的特点,在稳定性、表达能力和时间序列预测方面优于传统模型 [1] - 该架构由MIT CSAIL孵化、成立于2023年3月的初创公司Liquid AI提出,并开发了Liquid Foundation Models大模型 [1] - 液态神经网络的特点是规模小,早在2024年该架构就实现了1.3B参数大小的模型部署 [1] LFM2.5-1.2B-Thinking模型发布 - Liquid AI正式发布并开源了LFM2.5-1.2B-Thinking,这是一款可完全在端侧运行的1.2B参数推理模型 [2] - 该模型专门为简洁推理而训练,在生成最终答案前会先生成内部思考轨迹,旨在端侧低延迟条件下实现系统化问题求解 [3] - 模型在工具使用、数学推理和指令遵循方面表现尤为出色 [3] - 模型在手机上仅需900MB内存即可运行,实现了在口袋设备离线运行两年前需依赖数据中心才能完成的能力 [3] 模型性能表现 - 与自家前代模型LFM2.5-1.2B-Instruct相比,LFM2.5-1.2B-Thinking在多项能力上显著提升:数学推理在MATH-500基准上从63分提升至88分,指令遵循在Multi-IF上从61分提升至69分,工具使用在BFCLv3上从49分提升至57分 [7][9] - 在大多数推理基准测试中,LFM2.5-1.2B-Thinking的表现已与甚至超过参数量多约40%的Qwen3-1.7B模型 [7] - 具体基准测试数据显示,LFM2.5-1.2B-Thinking在GPQA得分为37.86,MMLU-Pro为49.65,IFEval为88.42,IFBench为44.85,Multi-IF为69.33,GSM8K为85.60 [10] - 该模型在质量与测试时计算效率之间取得良好平衡,与Qwen3-1.7B相比,在使用更少输出token的情况下提供了更高的整体性能 [10] - 在推理阶段,LFM2.5-1.2B-Thinking在推理速度和内存效率两方面都优于纯Transformer模型和混合架构模型 [12] - 模型在智能体式任务和高推理强度任务中表现突出,适合需要规划工具调用、验证中间结果并动态调整策略的场景 [14] 训练方法与技术细节 - 构建能力强的小型推理模型的关键在于,在知识容量有限的前提下通过多步推理弥补能力,同时保持答案简洁以满足端侧低延迟需求 [16] - 训练过程中,在中期训练阶段引入推理轨迹有助于模型内化“先推理,再作答”的模式,随后基于合成推理轨迹进行的监督微调让模型能稳定产生思维链 [16] - 为缓解模型可能陷入重复文本模式的“死循环式生成”问题,公司采用了多种策略,将死循环生成的比例从中期训练阶段的15.74%显著降低到RLVR阶段的0.36% [16][17] - 公司的RL训练流水线核心采用无critic、类GRPO方法,整体实现是reference-free的,并包含非对称比例裁剪、对零方差提示组的动态过滤、超长样本掩码等技巧 [18][19] - 在偏好对齐阶段,基于SFT模型生成候选,由LLM评判选择正负样本,一旦出现循环生成则直接将其作为负样本 [18] - 在RLVR阶段,训练早期引入了基于n-gram的重复惩罚以抑制循环生成行为 [18] - 公司采用高度并行的Curriculum RL训练框架,先以指令跟随的RLVR为基础,再分叉出面向推理、数学、工具使用等不同领域的专项checkpoint,最后进行模型合并 [21][22] - 最终发布的checkpoint是一个合并模型,其“家族树”中包含25个不同的子checkpoint [21] - 这种并行结构提供了更精细的控制粒度,允许每个领域的模型独立优化,模型合并被证明能有效吸收专项能力提升并保留整体性能 [22][23] 生态系统与硬件支持 - LFM2.5-1.2B-Thinking实现了开箱即用,兼容llama.cpp、MLX、vLLM和ONNX Runtime等流行推理框架,所有框架均支持CPU和GPU加速 [24] - 模型覆盖Apple、AMD、Qualcomm和Nvidia等多种硬件 [24] - 公司正在快速扩展软硬件生态系统,并欢迎Qualcomm Technologies, Inc.、Ollama、FastFlowLM和Cactus Compute作为新的合作伙伴加入 [24] - 性能数据显示,模型在AMD Ryzen™ AI Max 395+ NPU上使用FastFlowLM框架,预填充速度达1487 tok/s,解码速度60 tok/s,内存占用1,600MB;在Qualcomm Snapdragon® X Elite NPU上使用NexaML框架,预填充速度2591 tok/s,解码速度63 tok/s,内存占用0.9GB [26] 行业意义与展望 - LFM2.5-1.2B-Thinking证明了Transformer并非唯一解,小而强的端侧推理模型或许存在更优解 [27] - 运行推理模型的门槛正在降低,有助于让更多设备激发AI潜能 [28]