Auto Agent Learning
搜索文档
国产双开源:让Mac成为你的私人AI工作站
机器之心· 2026-05-06 12:10
行业技术趋势:Apple Silicon + MLX成为本地AI推理主流 - 2026年3月底,Ollama宣布其Mac版底层推理引擎将从llama.cpp切换为苹果的MLX框架,这被视为向开发者生态发出的明确信号,表明Apple Silicon + MLX正在成为本地AI推理的主流路线[1][6] - 性能提升显著,在搭载M5芯片的Mac上,切换到MLX后,prefill速度提升超过57%,生成速度接近翻倍,部分场景下生成第一个token的等待时间(TTFT)缩短至原先的四分之一[4] - 性能提升的核心原因在于Apple Silicon的统一内存架构和M5芯片开始在GPU核心中嵌入专门用于AI推理的硬件加速单元Neural Accelerator,MLX框架能更好地利用这些底层优势[4] 技术挑战与市场机遇:现有MLX框架的硬件利用不足 - 当前MLX框架支持的量化模式(如W4A16和W8A16)仅对模型“权重”进行量化,计算过程中的“激活值”仍以FP16格式运行,导致苹果为INT8运算专门设计的Neural Accelerator硬件未被完整调动[6] - 这为第三方解决方案提供了市场机遇,即通过更彻底的量化方案来更充分地利用Apple Silicon的专用硬件潜力,从而获得更显著的性能提升[6] 公司解决方案:Cider推理加速框架 - 明略科技开源了端侧推理加速框架Cider,构建于MLX之上,专为macOS与Apple Silicon设计,旨在补齐MLX原生框架的不足[7][8] - Cider提供了MLX原生框架缺失的两种量化推理模式:W8A8(权重和激活值同时量化至INT8)和W4A8(权重进一步压缩至INT4),并直接调用Apple GPU的TensorOps API以利用Neural Accelerator硬件[11][12][13] - 在单算子测试中,W8A8模式相比原生MLX W8A16方案展现出显著速度优势,在序列长度M=1024时速度提升1.82倍,M=4096时提升1.84倍,M=8192时提升1.86倍[14] - 在真实模型测试中,以Qwen3-VL-2B进行chunked prefill推理,W8A8模式下整体prefill加速约57%~61%[15] - 精度损失极小,以Qwen3-8B为例,W8A8量化后的困惑度(PPL)为9.756,与FP16原始精度(9.726)相比差距仅为0.03,同时整体Prefill耗时从FP16的179.9秒缩短至123.5秒,提速约45%[16] - Cider服务整个MLX生态,支持Qwen、Llama、Mistral等主流开源模型,开发者只需一行代码`convert_model(model)`即可接入加速[17] - Cider包含一个实验性的ANE+GPU异构并行模块,尝试在prefill阶段让神经网络引擎(ANE)与GPU协同工作,在M4芯片上的测试中带来了约3%~17%的速度提升[18][19] 公司解决方案:Mano-P GUI智能体模型 - 明略科技同步开源了GUI-VLA智能体模型Mano-P 1.0,其核心能力是通过纯视觉理解让AI直接看懂屏幕并操作图形界面(GUI),不依赖特定协议或解析[21][22][23] - 在自动化编程流水线中,Mano-P可替代人工完成GUI测试,将原本消耗超过50%云端token的开销直接归零[23] - 在基准测试中,Mano-P 1.0-72B以58.2%的成功率位列所有专用GUI智能体模型全球第一,领先第二名逾13个百分点[25] - 在端侧部署上,4B量化模型在Apple M4 Pro上可实现476 tokens/s prefill和76 tokens/s解码,峰值内存仅4.3GB,相比标准PyTorch CPU推理提速60倍以上[28] - 在Apple M5 Pro + Cider组合下,Mano-P 1.0-4B启用Cider的W8A8激活量化后,prefill时间从2.839s降到2.519s,加速约12.7%[29] 战略定位与核心理念:推动Private AI落地 - Cider与Mano-P的结合,指向了“Private AI”的理念,即让AI真正属于使用者,实现数据私有、推理私有、能力私有[34][35][36] - 该理念旨在让“数据零上云”从口号变为可部署的工程方案,实现成本可控、离线可用、数据完全自主[37] - Cider解决“速度”问题,让端侧推理足够快,使本地运行成为一个真实的工程选项;Mano-P解决“场景”问题,证明端侧AI可在具体高价值场景中真正可用[39] - 公司即将公布的下一个技术方向是“Auto Agent Learning”,旨在让跑在本地的小模型能用自然语言持续更新参数,适应用户的私有场景和习惯,重新定义AI所有权[38][39][41]