技能注入
搜索文档
真·养虾!3步让龙虾边聊边进化,不用GPU不用数据集就能强化学习
量子位· 2026-03-12 10:59
文章核心观点 - 介绍了一种名为MetaClaw的新型在线强化学习系统,该系统能够通过拦截用户与AI的日常对话作为训练数据,在后台自动优化AI智能体,实现“边聊边学”的持续能力进化,显著降低了AI持续学习的门槛[1][2][4] 技术机制与架构 - **核心框架**:系统基于自研的SkillRL(技能增强强化学习)框架,核心是“技能注入”与“技能进化”的组合拳[9] - **技能注入**:在每轮对话中精准匹配相关技能指令并注入系统提示,使AI能即时优化表现,避免同类错误[6][10] - **技能进化**:AI能从被动接收指令转变为主动生成新技能,使技能库随着使用不断丰富和增强[5][11] - **学习模式**:提供异步架构与双学习模式,将服务、奖励建模和训练解耦,支持从用户隐式反馈中优化的强化学习,以及结合高质量文本反馈的在线策略蒸馏,实现“工作学习”两不误[17] - **模型底座**:主要基于Kimi-2.5构建,同时提供Qwen3-4B作为轻量级替代方案,以适应低配设备[8] 部署与使用优势 - **云端训练**:系统将所有训练任务托管于Tinker云平台,实现了训练与部署的分离,用户无需本地GPU集群,也无需专门的工程团队维护[13][14] - **低门槛**:只要设备能联网即可运行整个系统,将AI持续学习的门槛降至极低水平,使普通开发者也能培养可进化的AI[15][16] - **简易上手**:使用仅需三步:安装依赖(包括`tinker`和`tinker-cookbook`云端LoRA训练SDK)、运行配置脚本将OpenClaw网关指向MetaClaw代理、设置Tinker API密钥并运行训练脚本[18][19][20][21][22][23] - **自动运行**:配置完成后,用户只需正常与智能体聊天,系统会自动收集对话轮次、评分并训练模型,每攒够一批样本(批次大小默认32)就热替换一次权重,全程无需人工干预[24][25][27] 配置与定制 - **核心配置**:所有配置项集中于`MetaClawConfig`中,包括模型选择、LoRA参数、训练步数等,一目了然[26][27] - **关键参数**:基础模型默认使用“moonshotai/Kimi-2.5”;LoRA rank默认32;触发一次训练步所需的批次大小默认32;最大训练步数默认1000[27] - **功能启用**:通过配置可灵活启用技能注入或技能进化功能,例如在启用技能进化时,可配置使用如GPT-5.2等外部模型接口[26]