Auto Agent Learning - 财报，业绩电话会，研报，新闻

Auto Agent Learning

搜索文档

机器之心· 2026-05-06 12:10

行业技术趋势：Apple Silicon + MLX成为本地AI推理主流 - 2026年3月底，Ollama宣布其Mac版底层推理引擎将从llama.cpp切换为苹果的MLX框架，这被视为向开发者生态发出的明确信号，表明Apple Silicon + MLX正在成为本地AI推理的主流路线[1][6] - 性能提升显著，在搭载M5芯片的Mac上，切换到MLX后，prefill速度提升超过57%，生成速度接近翻倍，部分场景下生成第一个token的等待时间（TTFT）缩短至原先的四分之一[4] - 性能提升的核心原因在于Apple Silicon的统一内存架构和M5芯片开始在GPU核心中嵌入专门用于AI推理的硬件加速单元Neural Accelerator，MLX框架能更好地利用这些底层优势[4] 技术挑战与市场机遇：现有MLX框架的硬件利用不足 - 当前MLX框架支持的量化模式（如W4A16和W8A16）仅对模型“权重”进行量化，计算过程中的“激活值”仍以FP16格式运行，导致苹果为INT8运算专门设计的Neural Accelerator硬件未被完整调动[6] - 这为第三方解决方案提供了市场机遇，即通过更彻底的量化方案来更充分地利用Apple Silicon的专用硬件潜力，从而获得更显著的性能提升[6] 公司解决方案：Cider推理加速框架 - 明略科技开源了端侧推理加速框架Cider，构建于MLX之上，专为macOS与Apple Silicon设计，旨在补齐MLX原生框架的不足[7][8] - Cider提供了MLX原生框架缺失的两种量化推理模式：W8A8（权重和激活值同时量化至INT8）和W4A8（权重进一步压缩至INT4），并直接调用Apple GPU的TensorOps API以利用Neural Accelerator硬件[11][12][13] - 在单算子测试中，W8A8模式相比原生MLX W8A16方案展现出显著速度优势，在序列长度M=1024时速度提升1.82倍，M=4096时提升1.84倍，M=8192时提升1.86倍[14] - 在真实模型测试中，以Qwen3-VL-2B进行chunked prefill推理，W8A8模式下整体prefill加速约57%~61%[15] - 精度损失极小，以Qwen3-8B为例，W8A8量化后的困惑度（PPL）为9.756，与FP16原始精度（9.726）相比差距仅为0.03，同时整体Prefill耗时从FP16的179.9秒缩短至123.5秒，提速约45%[16] - Cider服务整个MLX生态，支持Qwen、Llama、Mistral等主流开源模型，开发者只需一行代码`convert_model(model)`即可接入加速[17] - Cider包含一个实验性的ANE+GPU异构并行模块，尝试在prefill阶段让神经网络引擎（ANE）与GPU协同工作，在M4芯片上的测试中带来了约3%~17%的速度提升[18][19] 公司解决方案：Mano-P GUI智能体模型 - 明略科技同步开源了GUI-VLA智能体模型Mano-P 1.0，其核心能力是通过纯视觉理解让AI直接看懂屏幕并操作图形界面（GUI），不依赖特定协议或解析[21][22][23] - 在自动化编程流水线中，Mano-P可替代人工完成GUI测试，将原本消耗超过50%云端token的开销直接归零[23] - 在基准测试中，Mano-P 1.0-72B以58.2%的成功率位列所有专用GUI智能体模型全球第一，领先第二名逾13个百分点[25] - 在端侧部署上，4B量化模型在Apple M4 Pro上可实现476 tokens/s prefill和76 tokens/s解码，峰值内存仅4.3GB，相比标准PyTorch CPU推理提速60倍以上[28] - 在Apple M5 Pro + Cider组合下，Mano-P 1.0-4B启用Cider的W8A8激活量化后，prefill时间从2.839s降到2.519s，加速约12.7%[29] 战略定位与核心理念：推动Private AI落地 - Cider与Mano-P的结合，指向了“Private AI”的理念，即让AI真正属于使用者，实现数据私有、推理私有、能力私有[34][35][36] - 该理念旨在让“数据零上云”从口号变为可部署的工程方案，实现成本可控、离线可用、数据完全自主[37] - Cider解决“速度”问题，让端侧推理足够快，使本地运行成为一个真实的工程选项；Mano-P解决“场景”问题，证明端侧AI可在具体高价值场景中真正可用[39] - 公司即将公布的下一个技术方向是“Auto Agent Learning”，旨在让跑在本地的小模型能用自然语言持续更新参数，适应用户的私有场景和习惯，重新定义AI所有权[38][39][41]