机器之心
搜索文档
ICLR 2026 | Shop-R1: 给AI补上「内心戏」,在RL博弈中复刻人类网购脑
机器之心· 2026-03-21 09:09
文章核心观点 - 亚马逊研究团队提出Shop-R1训练框架,旨在实现电商AI智能体从传统的“任务导向”向“模拟导向”的范式转移,即从单纯完成购物指令转变为复刻真实人类的复杂决策过程[2][5] - Shop-R1通过结合监督微调与创新的多层级奖励强化学习,显著提升了AI在动态、嘈杂的在线购物环境中预测用户下一步操作(包括点击、输入、终止)的准确性,其核心价值在于为电商平台提供一个低成本、高保真的“虚拟A/B测试”环境[5][9][28] 技术框架与训练方法 - **双阶段训练范式**:首先通过监督微调实现行为基准的“冷启动”,帮助模型内化上下文、推理与动作间的结构性依赖;随后在强化学习阶段,利用多层级奖励机制驱动深度迭代,提升在复杂环境下的逻辑推理与泛化表现[9][12] - **多层级奖励机制**:将每一步决策拆分为推理生成和动作预测两个子任务,并设计专门的奖励函数[13] - **二值格式奖励**:鼓励模型以结构化的JSON格式输出,确保可解析性[14] - **推理奖励**:采用self-certainty score(基于KL散度)衡量模型对其生成推理的置信程度[15] - **层级式动作奖励**:对粗粒度的动作类型和细粒度的子动作分别给予奖励,以稳定训练并抑制奖励黑客行为,例如“click”和“type_and_submit”动作在类型正确后可因预测正确的子组件(如按钮名称、输入文本)获得额外奖励,而简单的“terminate”动作则没有子动作奖励[16][17] - **难度感知奖励缩放因子**:对预测难度较高的长文本子动作(如从数千个候选元素中识别按钮名称)给予放大的奖励,防止模型为获取容易的奖励而不断选择简单动作[18] - **评估标准**:对离散动作类型使用完全匹配,对自由文本形式的子动作使用ROUGE-L相似度评估,超过阈值(如0.75)时给予软奖励[19] 实验结果 - **基准模型表现**:直接使用zero-shot提示的Qwen-2.5-3B-Instruct模型,其精确动作准确率仅为0.32%,表明长序列网页行为无法仅靠通用指令能力恢复[22][23] - **训练方法对比**: - 仅使用稀疏二值奖励的强化学习从零训练效果有限,精确动作准确率仅1.01%[22][23] - 一轮监督微调可显著提升性能,将Qwen-2.5-3B-Instruct的精确动作准确率提升至16.76%[22][23] - 在SFT基础上仅使用二值奖励进行强化学习提升有限(16.55%)[22][23] - **Shop-R1最终效果**:结合了层级奖励、self-certainty信号、格式奖励及难度感知奖励缩放的Shop-R1框架,将Qwen-2.5-3B-Instruct的精确动作准确率提升至27.72%,相对于仅使用SFT提升了65%,同时动作类型准确率提升至36.40%[22][23] - **模型规模扩展性**:该框架在不同参数规模的模型上(如1.5B和0.5B)均表现出显著性能提升[23] 未来发展方向 - **感官增强**:计划引入视觉语言模型,使AI能捕捉图片、买家秀等非文本信息中蕴含的隐含情绪,弥补当前高度依赖HTML代码的局限[25] - **个性化模拟**:构想通过调整强化学习的奖励权重,赋予AI不同的消费画像,例如“极致性价比党”、“精致参数控”、“颜值正义者”,以复刻真实世界中“千人千面”的消费心理[26][32] 行业应用与价值 - **虚拟A/B测试环境**:Shop-R1这类模拟导向智能体可作为低成本、高保真的“购物模拟器”,使电商平台能在实验室环境中投喂数万个“AI购物者”,测试新推荐算法或页面布局,观察其在面对价格波动、界面改版时的实时反馈,从而优化运营策略[28]
从「模型」到「部署」,如何理解 AI 技术进步背后的基础设施挑战?
机器之心· 2026-03-21 09:09
GPT4.5的失败如何反应AI行业的普遍挑战? - GPT-4.5失败源于数据不足和基础设施复杂性,导致难以扩展,且无法提供开放访问或API [6] - AI技术进步不仅依赖理论突破,还需要基础设施升级,特别是在云计算与大规模数据处理领域 [7] - 大模型训练和推理对算力需求急剧增加,行业面临全球晶圆和内存产能短缺,内存价格上涨与芯片短缺加剧了算力瓶颈 [7] - 手机厂商如小米因芯片短缺被迫减产,而NVIDIA等公司将产能优先分配给利润更高的数据中心产品,供需矛盾使算力瓶颈问题更严重 [8] - 在资源短缺背景下,相较于本地推理,云端数据中心部署更高效,体现在资源利用效率、灵活性与扩展性,以及数据存储和处理能力优势 [8] - 云端数据中心通过集中化处理提升资源利用效率并降低成本,能更好支撑AI大模型的训练与推理,规避本地推理的硬件瓶颈 [9] - 云端平台具备更高灵活性,企业可集中管理算力资源并根据需求调配,扩展性使企业能迅速增加资源,而本地推理受限于硬件配置和物理空间 [9] AI工具如何推动组织效率提升并塑造竞争壁垒? - AI工具本质是智能体编排系统,能让非技术人员通过自然语言调用模型能力,简化任务并提升工作效率 [12] - 竞争壁垒不仅来自技术能力,还包括企业如何通过工具生态、技能库和共享工作流提升整体竞争力 [12] - 小团队可以借助这些工具在高成本领域获得竞争优势 [12] AI竞争如何从「模型」走向「部署」? - AI竞争的核心已从模型本身转向实验室文化、政府合作、算力获取及相关政治社会因素 [1]
突发!腾讯AI Lab撤销,部分人员并入混元
机器之心· 2026-03-20 19:27
腾讯 AI Lab 组织架构调整 - 腾讯 TEG 技术工程事业群组织架构发生部分调整,AI Lab 被撤销,原主任蒋杰不再担任该职务,但其他管理职责不变 [1] - 原 AI Lab 部分人员调整至混元团队,向姚顺雨汇报,产学研合作中心保留,多模态部负责人向 TEG 总裁卢山汇报 [2] - 2024年6月,张正友卸任腾讯 AI Lab 主任,由集团副总裁蒋杰接任,张正友继续担任 Robotics X 实验室主任 [10] 腾讯 AI Lab 历史与成果回顾 - 腾讯 AI Lab 于2016年4月在深圳成立,核心愿景是「Make AI Everywhere」 [5] - 基础研究方向包括计算机视觉、语音技术、自然语言处理和机器学习,应用探索聚焦于游戏、数字人、内容和社交 AI 四类,技术已被微信、QQ、天天快报和QQ音乐等上百个腾讯产品使用 [6] - 实验室在决策智能领域一度国际领先,其策略协作型 AI「绝悟」在《王者荣耀》等复杂环境中展现出超越人类职业选手的决策与协作能力 [6] - 实验室积极探索 AI 在生命科学领域的应用,例如研发「腾讯觅影」辅助癌症早筛,并在蛋白质结构预测(如 tFold)和药物研发领域取得显著突破 [8] - 过去十年,实验室曾吸引多位顶级科学家,包括牵头筹建的姚星、第一负责人张潼、西雅图 AI 实验室负责人俞栋、兼任 AI Lab 和 Robotics X 主任的张正友等 [8] 关键人事变动 - 2025年底,腾讯西雅图 AI 实验室负责人俞栋离职 [9] - 2019年,张潼从腾讯 AI Lab 离职返港任教 [9] - 2023年12月,原 OpenAI 研究员、27岁的姚顺雨加入腾讯,任「CEO/总裁办公室」首席 AI 科学家,直接向总裁刘炽平汇报 [4] 行业动态与趋势 - 国内科技公司的 AI 竞争进入一个更加残酷也更加务实的新阶段,表现为腾讯 AI 力量向混元大模型「会师」,阿里千问大模型负责人林俊旸卸任,以及 DeepSeek 核心研发人才流动 [15] - 有消息称,参与了 DeepSeekMath、DeepSeek-V3、DeepSeek-R1 等重大项目的 DeepSeek 核心成员郭达雅已经离职 [12]
万字综述遥感AI智能体!六大应用场景全面爆发,地理空间智能从「眼睛」变「大脑」
机器之心· 2026-03-20 19:27
文章核心观点 - 遥感技术正经历一场由AI智能体驱动的深刻变革,从传统的被动感知工具演变为具备主动认知、规划、记忆和协作能力的“地理空间智能体” [3][4] - 一篇由多所顶尖高校学者联合发布的系统综述,首次为“遥感智能体”提供了严格定义,并系统梳理了其架构、应用、数据集与未来方向,为该领域搭建了统一的理论框架 [3][8][34] 遥感AI智能体的定义与核心架构 - 遥感AI智能体不仅需要理解用户的高层目标,还需能自主拆解任务、调用专业工具(如GIS软件、气象数据)甚至指挥卫星或无人机获取新数据,是一个“感知-规划-记忆-动作-环境交互”的闭环系统 [9][10] - 其核心能力依赖于四个模块的协同工作:规划策略、记忆机制、动作执行和多智能体协作 [12][13] 规划策略 - **开环规划**:适合静态任务,在任务开始前生成固定流程,效率高但缺乏应变能力 [15] - **闭环规划**:能够根据工具输出、环境变化和任务目标实时动态调整计划,例如在云层遮挡光学影像时自动改用雷达数据或重新调度卫星 [15] 记忆机制 - **内部记忆**:记录单次任务中的中间结果(如矢量图层、工具参数),以保证工作流程的连贯性 [18] - **外部记忆**:实现跨任务的经验复用,例如将成功处理洪水的流程存入“经验池”,供后续类似灾害响应时直接调用 [18] 动作执行 - **调用外部工具**:例如使用GDAL处理栅格数据,或使用SNAP分析雷达数据 [21] - **生成代码**:利用Python或R实现定制化分析,以突破预定义工具的限制 [21] - **具身动作**:直接控制物理设备,如改变无人机航线或调整卫星拍摄角度,实现“感知-决策-行动”的完整闭环 [21] 多智能体协作模式 - **集中式协作**:由一个中央控制器统一调度任务并汇总结果,适合需要严格一致性的流程(如生成标准地图产品) [24] - **分布式协作**:多个智能体通过共享内存和相互协商达成共识,适合信息碎片化的场景(如多源数据融合定位) [24] 六大核心应用场景 - **城市治理**:智能体实现从三维场景精细识别(如AirSpatialBot)、自然语言驱动GIS分析(如ChatGeoAI、GeoGPT)到模拟居民行为(如LLMob、AgentMove)和优化交通信号控制(如LLMLight)的闭环 [25] - **精准农业**:智能体深度融合遥感分析与农业决策,实现NDVI等指标自动化计算(GeoLLM-Squad)、处理复杂农艺查询(AgriGPT)、作物病害诊断(ChatLeafDisease)以及基于行为偏好的土地利用优化(Data-Driven ABM) [26] - **生态监测**:智能体赋能生态系统全链条分析,包括直接回归预测生物量(REO-VLM)、单木级结构提取(TREE-GPT)、气候政策检索摘要(CLEAR)以及自动化气候科研工作流(EarthLink、DA4DTE) [26] - **海洋监管**:智能体在海洋科学推理(如WaterGPT、OceanGPT支持数据处理与任务决策)和自主航行控制(如将视觉-LLM嵌入航海仿真与无人艇闭环控制)两大方向取得突破 [27] - **应急响应**:智能体在灾害监测与决策中发挥关键作用,例如支持自适应多步解释(RescueADI)、动态重规划无人机任务(UAV-CodeAgents)、数字孪生火线追踪(FIRE-VLM)以及提升火势模拟、疏散与问答的精准度(如Knowledge-Guided wildfire、ESCAPE等) [28] - **地质勘探**:智能体推动地质解释与勘探自动化,实现全图信息提取与多影像推理(PEACE、STA-CoT)、缓解岩性识别歧义(Geo-MMRAG)以及自动化端到端勘探流程(MineAgent、GeoAgent) [29] 数据、评测与关键挑战 - 智能体性能高度依赖数据,现有资源包括**感知数据集**(如iSAID)、**推理数据集**(如GeoChat)和**决策数据集**(如RescueADI) [32][35] - 当前面临的主要挑战包括:**可靠性**(模型幻觉可能导致误判)、**动态适应**(应对云层、传感器故障等实时变化)、**安全隐私**(高分辨率影像泄露敏感信息)以及**评测缺失**(缺乏对规划、协作能力的整体评估基准) [33][35] 未来研究方向 - 论文指出了五个关键未来方向:**自进化**(从过往任务中学习优化)、**因果推理**(理解事件发生原因)、**群体智能**(多智能体协同应对全球性问题)、**具身交互**(主动指挥卫星、无人机获取数据)以及**个性化服务**(为不同用户提供定制化洞察) [33][35]
手残党跪了,Pi 0.6机器人15分钟学会拧螺丝,能进厂边干边学了
机器之心· 2026-03-20 16:39
文章核心观点 - Physical Intelligence公司通过其创新的“RL token”方法,使机器人能够仅利用十几分钟到几小时的真实世界经验,快速掌握插网线、拧微型螺丝等对精度和灵巧度要求极高的复杂操作,这标志着机器人学习速度和精细操作能力的重大突破,加速了机器人在工业场景中的应用进程 [1][7][27] 技术背景与行业痛点 - 过去一年,机器人已能完成叠衣服、端盘子等粗略工作,但在需要高精度的任务上表现不佳,例如将螺丝刀精准对准微小螺丝,而这正是真实工厂环境中最关键且难以妥协的部分 [3] - 传统方法若要训练机器人掌握精细操作,需要耗费巨大计算量并重新训练整个庞大的“主脑”模型,过程缓慢且效率低下 [5] RLT技术原理与创新 - 公司提出了一种“偷懒”的解决方案:不重新训练整个主模型,而是为其增加一个专门负责精细动作的“外挂”——RL token [6] - 核心灵感是让视觉语言动作模型配合一个极其小巧、可实时更新的模型进行强化学习微调,VLA模型输出一个代表内部复杂思考过程“极简摘要”的RL token,作为小型Actor和Critic网络的输入 [10] - RLT技术首先改造VLA,通过一个Transformer结构压缩出RL token,该token浓缩了当前观察画面中强化学习所需的所有关键信息,使得极小的Actor和Critic网络也能基于大模型的丰富理解来改进动作 [12] - 获得RL token后,仅需利用机器人积攒的几小时甚至几分钟真实数据,即可在线训练小型Actor和Critic网络,这些网络设计轻量,每秒可更新数百次,实现即时行为调整 [10][14] 技术实现细节 - **预测“动作块”**:强化学习策略预测一连串的“动作块”,与VLA的动作结构保持一致,便于直接调整任务中具有时间跨度的重要连贯动作 [15] - **学会“修改”而非“推翻”**:Actor网络接收VLA预测的动作作为输入,学习如何“编辑修改”而非全盘替换,策略更新被限制在参考动作附近,确保探索的稳定性 [15] - **防止“抄作业”**:引入“参考动作 dropout”机制,防止小模型在训练初期仅模仿VLA的动作,迫使其保持独立生成动作的能力 [15] - **融入人类干预**:可选择性地让人类在机器人卡壳或犯错时直接介入,纠正动作会被折叠并反馈到训练过程中 [16] - 这些设计使在线强化学习成为一个可复用的“通用配方”,无需针对具体任务进行专门工程设计,即可挂载到预训练的VLA模型上应对各种任务 [16] 实验验证与性能表现 - 研究者在四项高精度挑战性任务上测试RLT:用电动螺丝刀拧入M3微型螺丝、系紧扎带、插入网线及插入电源线 [17] - 在这些任务中,通用基础模型能完成大部分“粗略”动作,但任务成败与速度取决于需要大量物理接触、对位置和角度精度要求极高的关键阶段 [17][20] - 实际测试表明,机器人**仅利用15分钟的真实世界数据**,就能优化每个动作里最难的部分 [22] - 在所有四项任务中,与基础模型相比,RLT在速度和成功率上均有显著提升,以“吞吐量”衡量,RLT使**每项任务中最精细步骤的速度提高到原来的3倍** [7][22] - 在“插网线”任务中,整个训练耗时2小时,但包含机器人动作的数据仅15分钟,RLT的执行速度**甚至超越了人类远程操作的速度**,最终策略有一半的测试速度比任何一次人类示范操作都要快 [24][25]
IEEE TVCG | 告别写代码!MoGraphGPT:基于模块化大模型与图形控制的2D交互场景创作
机器之心· 2026-03-20 16:39
研究背景与痛点 - 使用大语言模型直接生成2D交互场景或代码时,创作者面临四大挑战:代码质量堪忧,在处理多元素复杂交互逻辑时容易生成不完整或错误的代码[6];缺乏独立编辑性,线性对话结构导致修改困难,容易产生意外影响[7];图形控制缺失,仅靠文本难以精准描述空间信息[8];精确控制极其繁琐,微调参数需反复修改提示词,效率低下[9] 核心解决方案 - 研究团队提出名为MoGraphGPT的创新系统,结合了上下文感知模块化大模型与直观的图形化和精确化控制,允许用户通过自然语言和简单的画布涂鸦,零代码快速搭建逻辑复杂的2D交互场景[2] - 该系统采用两项突破性核心机制:第一是上下文感知的LLM模块化,采用自顶向下的分层管理结构,为场景中每个元素设置专属独立LLM会话,并设有一个中心统筹LLM模块专门处理元素间交互,实现了独立调整与协同工作的平衡[12][13];第二是无缝融合的图形控制与UI精准微调,用户可在画布上直接标点、画线、画曲线或圈出区域,并在提示词中引用这些图形元素进行控制,系统会自动将手绘图形转化为精确坐标参数[18] 性能验证与效果 - 在与业界顶尖AI编程助手Cursor Composer的对比实验中,MoGraphGPT在完成同样交互场景还原任务时,平均耗时比Cursor缩短了约73.8%[19] - MoGraphGPT极大降低了试错成本,用户所需输入的提示词数量和文本长度分别大幅减少了68.4%和88.9%,并且在易用性、可控性与总体表现等主观评分上显著提升[19] - 基于LLM-as-a-Judge及真实编译环境的测试显示,MoGraphGPT生成的代码在致命错误和严重错误数量上均远低于基线工具[19] 应用与创作潜力 - 在自由创作环节中,无论是无编程基础的用户还是经验丰富的开发者,都能在10到30分钟内使用MoGraphGPT完整构建出各具特色的作品,应用涵盖双人游戏、射击游戏、教学演示动画、学术论文动态插图以及网页交互Demo等多种类型[21] 研究意义与未来方向 - MoGraphGPT在大语言模型代码生成与可视化无代码编辑之间架起了桥梁,其核心的模块化LLM调度策略和图形化操控不仅解决了复杂场景下的代码耦合问题,也为未来多智能体协同生成复杂应用程序提供了一种全新的交互范式[24] - 未来团队将进一步探索支持更庞大场景的交互式创作,探索代码可见性分级,并验证其在更多专业级引擎中的管线对接潜力[25]
登顶全球权威榜单!浙大创业团队百卡打造开源实时世界模型,视频秒变可交互4D世界
机器之心· 2026-03-20 13:21
文章核心观点 - 全球科技界正围绕“世界模型”展开激烈竞争,其核心是让AI理解并重构物理世界,而中国初创公司影溯(InSpatio)通过发布开源世界模型InSpatio-World,凭借创新的3D架构和极高的效率,实现了范式突破,在该领域取得了领先地位,并展示了巨大的商业化潜力 [1][2][18] 行业背景与竞争格局 - 全球资本与顶尖研究机构正押注“世界模型”的未来,例如李飞飞的World Labs获得百亿美元估值,Yann LeCun创下10.3亿美元种子轮融资纪录,Google与NVIDIA也投入海量算力进行资源博弈 [1] - 行业在“如何表征世界”上存在根本分歧:2D路线(如NVIDIA的Cosmos、Google的Genie)依赖海量视频进行视觉统计学习,但易出现物理一致性坍塌;3D路线(如World Labs的Marble)坚持直接建模空间结构,但受限于高质量3D数据稀缺 [16][17] - 业界普遍认为,如果说大语言模型(LLM)定义了过去的AI浪潮,那么世界模型正在定义下一轮,它将重写自动驾驶、虚拟现实(VR/AR)、具身智能等多个行业的底层逻辑 [30] 公司技术与产品突破 - 影溯发布并开源了世界模型InSpatio-World,在权威榜单WorldScore-Dynamic中力压其他实时/交互级推理速度的世界模型,登顶榜首 [2][7][18] - 该模型彻底摒弃了纯2D视频路径,采用更具第一性原理的3D空间架构,仅用数百万元人民币的研发全周期训练成本,便在核心指标上反超了AI巨头的模型,实现了“效率奇迹” [2] - 模型推理效率极高,在单张专业级显卡(如RTX 4090)上就能实现24 FPS(或10 FPS)的流畅推理,仅需百卡级别的算力即可完成快速训练,极大降低了商业化门槛 [2][10] - 技术核心在于“状态锚定世界建模”范式,通过显式建模“世界状态”,实现了观测视角与物理实体的解耦,使时间演化成为3D状态的物理更新,依托“显式状态建模、时空自回归框架、联合分布匹配蒸馏”三大核心技术 [20][23] - 该模型实现了从“像素生成”到“实时仿真”的跨越,交付的不再是静态视频,而是一个响应式、可交互的“鲜活世界”,支持自由暂停、精准回溯和介入交互 [19][24] 团队背景与研发路径 - 影溯团队具有深厚的“国家队”背景和产学研协同优势,首席科学家鲍虎军教授在图形学、空间计算领域有数十年积累,创始人章国锋教授兼具学术研究与产业落地(如商汤科技)经验,联合创始人刘浩敏博士及其团队负责工程化实现 [27] - 团队构建了贯通三维感知、实时计算与物理仿真的全栈技术和工程能力闭环,形成了从实验室“从0到1”范式突破到产业端“从1到N”效率攻坚的完整技术闭环 [26][27][28] - 团队选择了一条独特的技术路径:将海量2D视频转化为可学习的3D动态表示,巧妙地绕过了3D数据稀缺的瓶颈,并实现了从静态3D重建(InSpatio-WorldFM)到动态4D演化(InSpatio-World)的跨越 [20] 应用前景与商业化进展 - InSpatio-World能够将一段普通单目视频“复活”成一个鲜活的4D世界,使平面的像素跃升为可反复进入、沉浸体验的立体记忆空间,定义了下一代可交互数字资产 [7][8][10] - 该模型是具身智能与自动驾驶非常理想、有效的虚拟训练场,可构建可控的虚拟世界用于生成大量长尾场景,进行反复试错和策略优化 [10][30] - 在虚拟现实(VR/AR)领域,有望缓解“空间内容供给瓶颈”,将文本、图像或视频直接转化为可探索的三维空间 [30] - 在具身智能领域,能让机器人具备“行动前的模拟”能力,进行内部推演和自主决策 [30] - 公司目前已收到全球数十家机器人、自动驾驶与内容巨头的深度商业化需求,正全力加速产业落地 [32]
ICLR 2026 | 机器人不够聪明?VLMgineer让大模型自己「发明工具」,从设计到使用全自动
机器之心· 2026-03-20 13:21AI 处理中...
那么问题来了:今天的大模型,能否自动为机器人设计这样的工具和相应的使用动作? 来自宾夕法尼亚大学的研究者在这个方向上做了探索。他们提出了 VLMgineer,一个全自动的工具设计与使用框架,利用视觉语言模型(VLM)的创造力 与进化搜索,让机器人从零开始自主设计工具并学会使用它们。该工作已被 ICLR 2026 接收。 人类之所以能主宰地球,很大程度上归功于一项独特的认知能力—— 制造和使用工具 。从石器时代的燧石刀到现代的精密仪器,工具的发明一直是衡量智 能水平的核心标志。 然而,当我们审视当今最前沿的机器人研究,会发现一个有趣的不对称:绝大多数工作都在追求更复杂的控制策略——让机器人「手更巧」,却很少有人思 考一个更本质的问题: 能不能让工具本身更合适,从而让控制变得更简单? 试想一下:如果你需要够到远处的杯子蛋糕,与其训练机械臂做出高难度的伸展动作,不如直接设计一根形状恰到好处的「取物钩」——这才是另一种形式 的「物理智慧」。 自然界中也有相应的例子,新喀里多尼亚乌鸦可以自己制造并使用工具从狭小的缝隙中取出食物。 论文: VLMgineer: Vision Language Models as Robo ...
搞不懂Skills?看看Claude Code内部工程师们是怎么玩的
机器之心· 2026-03-20 13:21
文章核心观点 - Anthropic公司内部已在Claude Code中广泛使用Skills,目前有数百个Skills在实际运行中,它们是使用最广泛的扩展方式之一[5] - Skills不仅仅是Markdown文件,而是一个可以包含脚本、资源、数据的文件夹,为智能体提供发现、探索和操作的能力[8] - 文章旨在分享从内部实战中总结的关于Skills制作、使用、推广和分发的经验,而非权威指南,鼓励通过实践进行探索[3][4][6][75] Skills的类型与示例 - **库与API参考**:解释如何正确使用库、CLI或SDK,包含参考代码片段和常见问题避免方法[13] - **产品验证**:描述如何测试或验证代码是否正常工作,常与外部工具配合使用,对确保Claude输出正确非常有用[14][15] - **数据抓取与分析**:连接到数据和监控系统,包含通过凭证抓取数据的库以及常见工作流说明[17] - **业务流程与团队自动化**:将重复工作流自动化,可能有复杂依赖关系,将先前结果保存在日志文件中有助于保持模型一致性[18][19] - **代码脚手架与模板**:用于生成代码库中特定功能的框架模板,在自然语言要求无法仅通过代码覆盖时尤为有用[20] - **代码质量与审核**:强制执行组织中的代码质量并帮助审查代码,可包含确定性脚本或工具以确保稳健性[21] - **CI/CD与部署**:帮助在代码库内获取、推送和部署代码,可能引用其他Skills以收集数据[22] - **运行手册**:通过症状进行多工具调查,并生成结构化报告[26] - **基础设施操作**:执行常规的维护和操作程序,涉及需要有防护措施的破坏性操作,使工程师更容易遵循最佳实践[27] 制作Skills的技巧 - **不要陈述显而易见的内容**:Claude Code已了解很多默认知识,Skills应专注于能让Claude脱离正常思维方式的信息[32] - **构建陷阱(Gotchas)部分**:这是Skills中最有价值的部分,应基于Claude使用Skills时遇到的常见失败点构建,并随时间更新以保持有效性和准确性[35][37] - **利用文件系统和渐进式披露**:将整个文件系统视为上下文工程的方式,通过指向其他Markdown文件、在assets文件夹中包含模板文件等方式,帮助Claude更有效地工作[40][41][42][43] - **避免过度束缚Claude**:给予必要信息的同时保留灵活性,以适应不同情况,避免指令过于具体[44] - **思考Skills的设置**:对于需要用户上下文的Skills,可将设置信息存储在config.json文件中,或指示Claude使用AskUserQuestion工具呈现结构化多选问题[47][48][49] - **优化描述字段**:描述字段是给模型的,用于描述何时触发Skills的场景,是Claude决定是否有Skills能解决请求的依据[52] - **实现记忆与存储数据**:可通过在内部存储数据实现记忆功能,如使用文本日志文件、JSON文件或SQLite数据库,但需注意数据应存储在稳定文件夹中[55][56] - **存储脚本与生成代码**:提供脚本和库是给Claude最强大的工具之一,可让其专注于组合和决策,而非重建基础代码[57][58][59] - **使用按需钩子(On Demand Hooks)**:可包括仅在Skills被调用时激活的钩子,作用持续到会话结束,对于有强烈意见但不希望一直运行的功能特别有用[61][62] Skills的分发与管理 - **分享方式**:有两种方式分享Skills,一是将Skills检查到代码库中,二是创建插件并拥有Claude Code Plugin市场供用户上传和安装插件[64][65][67] - **管理市场**:Anthropic内部没有一个集中式团队决定哪些Skills进入市场,而是通过自然方式找到最有用的Skills,例如上传至GitHub沙箱文件夹并通过Slack分享,获得关注度后可提交PR移入市场[68][69] - **组合Skills**:Skills可以相互依赖,目前市场或Skills中没有内建依赖管理功能,但可以直接通过名称引用其他已安装的Skills[71] - **衡量效果**:使用PreToolUse钩子记录公司内Skills的使用情况,以发现哪些Skills受欢迎,哪些触发率低于预期[72][73]
北航,清华,北大联合发布: 异构智能体协同强化学习!
机器之心· 2026-03-20 09:14
文章核心观点 - 提出了一种名为异构协同强化学习(HACRL)的全新训练范式,旨在解决大模型强化学习微调中因“单打独斗”和“孤立优化”导致的采样成本高、样本利用率低等核心瓶颈[5][7] - HACRL范式的核心是让多个在参数、规模或架构上存在差异的异构智能体在训练阶段共享并验证彼此的轨迹(rollouts),实现协同策略优化,而在推理阶段则各自独立部署运行[6][8] - 为支持HACRL,提出了异构协同策略优化(HACPO)算法,该算法通过四项关键技术弥合智能体间的能力与策略分布差异,实验证明该算法能有效提升所有参与智能体的性能,同时显著降低采样成本[12][26][35] 问题背景与现有范式局限 - **当前瓶颈**:大模型强化学习微调中,rollout采样与校验成本是核心瓶颈,严重制约训练效率与规模化落地[5] - **孤立优化问题**:现有范式普遍采用孤立优化,模型独立采样、验证与更新,导致高质量轨迹无法复用,样本利用率极低,造成巨大算力浪费[5] - **异构数据价值未发掘**:大模型生态呈现显著异构性,不同模型生成的rollouts携带互补知识,但现有方法(如多智能体强化学习MARL和知识蒸馏KD)无法有效支持“训练协同、推理独立”的异构模型双向学习场景[7][13] 异构协同强化学习(HACRL)新范式 - **范式定义**:HACRL是一种新范式,多个异构智能体在训练时共享经过验证的rollouts(响应+奖励)以实现协同策略优化,在推理时则各自独立完成任务[6][8] - **与现有范式的区别**: - 不同于多智能体强化学习(MARL):MARL训练一个需协同执行的系统,而HACRL训练多个在推理时独立的模型[13] - 不同于知识蒸馏(KD):KD是同构模型间的单向知识传递,而HACRL是异构模型间的双向相互学习[13] 核心算法:异构协同策略优化(HACPO) 1. **智能体能力感知的优势估计**:根据每个智能体的相对性能,为其分配不同的组间优势基线,理论上该估计器是无偏的[15][16] 2. **模型能力差异系数**:使用能力比率来校准基线并调制梯度,以鼓励向更强的智能体学习,同时对较弱的智能体保持保守[19][20] 3. **指数重要性采样**:采用序列级别的重要性比率并扩展至异构多智能体设置,引入非梯度指数重加权,使智能体偏向从输出分布与其自身更一致的rollout中学习[21] 4. **逐步裁剪**:对跨智能体重要性采样比率应用非对称裁剪边界和逐步裁剪策略,防止跨智能体经验在训练后期占据主导,提高训练稳定性[23] 实验结果与有效性分析 - **整体性能提升**:在多个数学推理基准上,HACPO使所有参与智能体的性能均获得一致提升,平均性能超越基线方法 **3.3%** [6][35] - **采样效率提升**:与等资源基线相比,HACPO仅需 **一半的采样成本** 即可实现性能提升[6][35] - **不同异构类型下的表现**: - **状态异构**:弱模型(Qwen3-4B)性能提高 **7.1%** ,强模型(Qwen3-4B-Instruct)提高 **1.4%** ,主要体现强模型对弱模型的帮助[27] - **尺寸异构**:小模型(Qwen3-1.7B-Base)提升 **2.6%** ,大模型(Qwen3-4B-Base)提升 **2.3%** ,小模型能提供互补知识[31][33] - **模型异构**:即使架构和分词器不同,Qwen3-4B-Base提高 **1.9%** ,Llama3.2-3B-Instruct提高 **3.9%** ,证明了算法的通用性和鲁棒性[32] - **性能提升归因**:主要源于**能力驱动的指导**(强模型提供高质量解)和**互补知识的交换**(弱模型提供不同的推理路径与信息性错误)[29] - **消融实验**:对HACPO四个核心模块的消融实验表明,缺失任何一个模块都会导致模型性能下降,证明了各模块的有效性[36] 未来展望 - 将HACRL范式的适用场景从数学推理延伸至代码生成、多模态理解等更广泛的大模型核心下游任务,以验证其普适性[38] - 探索更大规模的异构智能体协同训练网络,研究智能体间相互学习的效果边界与影响机制[38] - 构建跨模型、跨领域的统一知识学习平台,为迈向通用人工智能(AGI)奠定框架基础[38]