技能注入 - 财报，业绩电话会，研报，新闻

技能注入

搜索文档

量子位· 2026-03-12 10:59

文章核心观点 - 介绍了一种名为MetaClaw的新型在线强化学习系统，该系统能够通过拦截用户与AI的日常对话作为训练数据，在后台自动优化AI智能体，实现“边聊边学”的持续能力进化，显著降低了AI持续学习的门槛[1][2][4] 技术机制与架构 - **核心框架**：系统基于自研的SkillRL（技能增强强化学习）框架，核心是“技能注入”与“技能进化”的组合拳[9] - **技能注入**：在每轮对话中精准匹配相关技能指令并注入系统提示，使AI能即时优化表现，避免同类错误[6][10] - **技能进化**：AI能从被动接收指令转变为主动生成新技能，使技能库随着使用不断丰富和增强[5][11] - **学习模式**：提供异步架构与双学习模式，将服务、奖励建模和训练解耦，支持从用户隐式反馈中优化的强化学习，以及结合高质量文本反馈的在线策略蒸馏，实现“工作学习”两不误[17] - **模型底座**：主要基于Kimi-2.5构建，同时提供Qwen3-4B作为轻量级替代方案，以适应低配设备[8] 部署与使用优势 - **云端训练**：系统将所有训练任务托管于Tinker云平台，实现了训练与部署的分离，用户无需本地GPU集群，也无需专门的工程团队维护[13][14] - **低门槛**：只要设备能联网即可运行整个系统，将AI持续学习的门槛降至极低水平，使普通开发者也能培养可进化的AI[15][16] - **简易上手**：使用仅需三步：安装依赖（包括`tinker`和`tinker-cookbook`云端LoRA训练SDK）、运行配置脚本将OpenClaw网关指向MetaClaw代理、设置Tinker API密钥并运行训练脚本[18][19][20][21][22][23] - **自动运行**：配置完成后，用户只需正常与智能体聊天，系统会自动收集对话轮次、评分并训练模型，每攒够一批样本（批次大小默认32）就热替换一次权重，全程无需人工干预[24][25][27] 配置与定制 - **核心配置**：所有配置项集中于`MetaClawConfig`中，包括模型选择、LoRA参数、训练步数等，一目了然[26][27] - **关键参数**：基础模型默认使用“moonshotai/Kimi-2.5”；LoRA rank默认32；触发一次训练步所需的批次大小默认32；最大训练步数默认1000[27] - **功能启用**：通过配置可灵活启用技能注入或技能进化功能，例如在启用技能进化时，可配置使用如GPT-5.2等外部模型接口[26]

在线强化学习

技能注入

技能进化

Artificial Intelligence

Artificial Intelligence

MetaClaw

OpenClaw