Workflow
Qwen2.5
icon
搜索文档
ARPO:智能体强化策略优化,让Agent在关键时刻多探索一步
机器之心· 2025-08-09 14:02
研究背景与动机 - 大语言模型在单轮推理任务中表现亮眼,但在开放式多轮交互场景中仍存在长程规划与工具交互能力不足的问题 [8] - 现有强化学习方法在平衡模型推理与多轮工具交互方面存在局限性,常因奖励稀疏和工具过用导致价值低估 [8] - 研究发现模型在工具调用后的初始生成阶段熵值显著升高,这一高熵现象未被现有方法充分利用 [14][16] ARPO方法创新 - 提出熵驱动的自适应rollout机制,在高熵工具调用步骤加大探索力度,增强推理路径多样性 [20][24] - 引入优势归因估计,优化策略更新方式,更好理解工具交互中各步骤的价值差异 [28][29] - 算法在保持计算复杂度可控的同时,实现不确定性感知的高效探索 [27] 实验设计与结果 - 在13个高难基准测试中,ARPO仅使用一半工具调用预算即显著优于主流RL方法 [3][21] - 在Qwen2.5-7B模型上,ARPO相比GRPO方法工具调用效率提升明显,同时准确率更高 [37][39] - 多任务测试显示ARPO在计算推理(AIME24 71.4%)、知识推理(HotpotQA 67.4%)和深度搜索(GAIA 61.2%)任务中均保持稳定优势 [35][41] 技术实现细节 - 采用分层奖励设计,综合考虑答案正确性、工具调用格式及多工具协作,最高可获得0.1额外奖励 [32] - 软优势估计方法在训练中表现更稳定,被设为默认优势估计方式 [31] - 工具生态覆盖搜索引擎、网页浏览智能体和代码解释器三类代表性工具 [22] 应用前景与展望 - 未来可扩展至多模态Agentic RL,探索图像、视频等多模态场景下的工具调用优化 [42] - 通过引入代码调试器、数据分析工具等扩展工具生态,提升复杂任务表现 [42] - 算法展示出良好的大规模部署潜力,可进一步优化实时动态环境中的适配性 [42]
监督学习未死,一题训练五小时起飞!华人学者新方法20倍训练效率释放大模型推理能力
量子位· 2025-08-04 15:00
大模型推理能力研究进展 - 可验证奖励的强化学习(RLVR)技术取得突破,尤其是"一题强化学习"在多个任务中表现亮眼[1] - RL训练面临资源成本高(上百小时A100GPU)和训练不稳定的现实难题[2] - 传统监督式微调(SFT)在低数据量下易过拟合,效果难以保证[2] One-Shot CFT技术原理 - 滑铁卢大学TIGER Lab提出One-Shot Critique Fine-Tuning新方法,通过"逐步分析判断答案好坏"激发LLM推理能力[3] - 方法流程:选取代表性任务→多模型生成解答→强大模型点评→训练目标模型从点评中学习[4] - 仅需一题数据+多个解答+多个点评即可完成微调,训练仅需约5个GPU小时[5] 实验效果验证 - 在数学任务上,Qwen2.5-Math-7B经CFT微调后准确率提升+15%,超越使用4万多个样本的全监督微调模型[9] - Qwen2.5-Math-7B在MATH-500等基准测试中平均提升+14.9分,最高单任务提升+23.1分[9] - 在BBEH逻辑推理任务中获得+10~16%准确率增幅,展现跨任务迁移能力[10] - 效果对具体任务和种子选择不敏感,具有良好的稳定性和复现性[11] 技术优势分析 - 批判性学习:理解"答案为何正确或错误",学习信号更具深度[12] - 多视角输入:一个问题模拟多种推理路径与错误类型,接近人类学习方式[12] - 强泛化性:点评语言包含通用逻辑判断规则,更易迁移至新任务[12] - 更换问题、模型、点评风格时,提升幅度保持稳定[13] 应用前景 - 相比RL方法大幅降低资源需求(5 GPU小时 vs 上百小时)[14] - 为个人研究者、资源有限实验室和初创团队提供高性价比解决方案[15] - 全流程开源(训练脚本、模型参数、数据集等),极大降低复现门槛[17]
GPT-4o遭越狱后指挥机器人做危险动作!全球首个具身智能体安全评测基准来了,大模型集体翻车
量子位· 2025-08-01 12:23
具身智能体安全研究 - 核心观点:顶级大模型如GPT-4o、Grok被"越狱"后可能教唆机器人执行危险行为,需建立安全评测基准[2][4] - 全球首个具身智能体安全评测基准AGENTSAFE诞生,填补对抗性安全评测空白[4][5] - 研究团队计划发布数据集、代码和评测沙盒供全球使用[6] AGENTSAFE设计原理 - 模拟45种真实室内场景,包含104种可交互物体[14] - 构建9900条危险指令数据集,引入6种"越狱"攻击手段(如多语言攻击、说服性攻击)[15][24] - 采用端到端评测闭环设计(感知→规划→执行),超越传统仅评估"规划合理性"的方法[16][18][20] 实验关键发现 - 测试5个主流VLM:GPT-4o、Gemini、Grok-2、GLM-4V、Qwen2.5[29] - 安全指令下感知准确率近100%,但危险指令分化明显:GPT-4o对"伤害人类"指令拒绝率最高(90%)[33][35] - "越狱"后安全性崩溃:GPT-4o拒绝率从84.67%降至58.33%,Grok/Gemini规划成功率飙升[37][38][39] - 案例:机器人完整执行"找到电脑→扔向镜子"的危险流程[40] 行业意义 - 现有评测基准忽视对抗性危险指令,聚焦任务完成率[9] - 具身智能体需通过安全测试才能部署真实世界[43] - 研究获ICML 2025多智能体系统研讨会杰出论文奖[5]
Meta-Think ≠ 记套路,多智能体强化学习解锁大模型元思考泛化
机器之心· 2025-07-03 11:26
大模型元思维推理框架ReMA 核心观点 - 提出强化元思维智能体(ReMA)框架,通过多智能体强化学习实现大语言模型的"元思维"能力,即监控、评估和控制自身推理过程的能力 [3][4][6] - 将复杂推理解耦为元思维智能体(战略规划)和推理智能体(执行计算)的双层架构,通过多智能体协作提升探索效率和泛化能力 [10][11][12] - 在数学推理和LLM-as-a-Judge基准测试中,ReMA平均性能优于基线方法,如Llama3-8B在AMC23数据集提升20% [27][28] 方法论创新 - **架构设计**:采用层级化多智能体系统(MAS),相比单智能体方法(如DeepSeek R1)降低探索难度,避免动作空间过大问题 [8][12] - **训练机制**: - 单轮场景使用GRPO和REINFORCE++算法优化,奖励函数兼顾回答正确性与格式规范性 [19] - 多轮场景引入参数共享和轮次级比率(turn-level ratio)技术,提升训练稳定性 [20][22][23] - **数据生成**:从LIMO数据集转换800条多轮MAMRP样本作为冷启动数据 [37] 实验结果 - **单轮测试**: - Llama3-8B在7个数学基准平均提升6.68%,Qwen2.5-7B在AIME24提升13.33% [27] - 元思维指导使困难任务准确率提升更显著,如Llama3-8B在AMC23从2.5%提升至22.5% [27][33] - **多轮测试**: - 8B以上模型能自适应选择元思维动作(如DECOMPOSE/REWRITE),小模型(1B)则收敛至简单策略 [36] - 共享参数设计使训练效率提升2.3倍,轮次级比率技术加速收敛 [37] 技术局限 - 多轮训练存在不稳定性,测试集提升不明显且对超参数敏感 [40] - 当前基于Deterministic MDP的训练流程可能不适用于Stochastic MDP场景 [39] 资源信息 - 论文已发布于arXiv(编号2503.09501),代码开源在GitHub [8] - 实验涉及Llama3-8B、Qwen2.5-7B等模型,测试覆盖MATH、GSM8K等12个基准数据集 [27][28]
7B智能体仅凭9个任务训练即超越R1!上交大打造AI-for-AI新范式
机器之心· 2025-06-21 09:33
AI4AI 新范式突破 - 当前 AI 开发依赖人类专家手动调参,效率低下且成为制约 AGI 发展的关键瓶颈,AI4AI 通过让 AI 自主设计算法减少人工干预 [1] - 上海交大与上海 AI 实验室联合团队实现重大突破,仅用 7B 参数模型训练的 ML-Agent 在 9 个任务上学习后,设计能力超越 671B 参数的 Deepseek-R1 智能体 [2] - 该研究首次实现从"提示工程"到"经验学习"的范式跃迁,开创 AI 自主设计 AI 的新路径 [2][9] 传统自主机器学习的局限性 - 传统方法需要数天至数月进行模型设计和调优,效率低下 [4] - 现有基于 LLM 的智能体仍依赖人工提示词设计,形成"等待-修改-重试"的低效循环 [5] - 智能体缺乏从经验中自主学习和泛化的能力,难以摆脱对人力的依赖 [5] ML-Agent 的技术创新 - 采用在线强化学习范式,使智能体能够跨任务积累知识并持续优化决策 [7] - 开发探索增强微调技术,通过多样化专家轨迹数据集提升智能体探索能力 [14] - 提出逐步强化学习范式,重构目标函数使数据收集效率提升数倍 [15] - 设计定制化奖励模块,将复杂实验反馈转化为统一信号推动持续改进 [19] ML-Agent 的性能表现 - 在 10 个未见任务上全面超越 671B 参数的 Deepseek-R1,展现强大泛化能力 [20] - 在 cifar-10 任务上平均准确率达 68.88%,最佳达 81.45%,显著优于对比模型 [21] - 在表格数据任务 house-price 上平均 MAE 降至 20209,最佳达 18440 [21] - 在文本任务 feedback 上 MCRMSE 降至 0.5910,优于所有对比模型 [21] 行业影响与未来发展 - ML-Agent 标志着 AI 智能体从"工具执行者"向"自主学习者"的转变 [9] - 该技术大幅减少人类干预,加速 AI 算法设计迭代,为 AGI 发展奠定基础 [25] - 研究成果已纳入 MASWorks 开源社区,该社区旨在推动多智能体系统发展 [27] - 社区将在 ICML 2025 举办大语言模型多智能体专题研讨会 [28]
小红书hi lab首次开源文本大模型,训练资源不到Qwen2.5 72B 的四分之一
AI前线· 2025-06-06 16:30
模型开源与架构 - 小红书hi lab团队开源文本大模型dots.llm1,采用MIT许可证 [1] - 模型为中等规模MoE架构,激活参数量14B,总参数量142B,上下文长度32K [2] - 采用decoder-only Transformer架构,FFN替换为MoE模块,保持经济成本的同时提升能力 [4] 训练数据与方法 - 预训练使用11.2T高质量真实数据,未采用合成数据,性能达Qwen2.5-72B水平 [2] - 采用三阶段数据处理方法:文档准备、基于规则处理、基于模型处理 [4] - 开发轻量级网页清理模型和200类别分类器平衡数据比例,增加知识性内容比重 [4][5] - 使用AdamW优化器和warmup-stable-decay学习率计划,训练中逐步增加批量大小 [5] - 采用UtK策略扩展上下文至32K,通过片段重组训练模型重构能力 [5] 训练效率与成本 - 训练框架基于内部Cybertron,集成1F1B交错式通信和计算重叠方案 [6] - 每万亿tokens训练仅需13万GPU小时,Qwen2.5 72B需34万GPU小时 [7] - 完整预训练消耗146万GPU小时,仅为Qwen2.5 72B的1/4 [7] 微调与性能表现 - 收集40万指令调优实例,聚焦多语言对话、知识问答、复杂指令和数学编码推理 [9] - 微调分两阶段:指令样本重采样与多轮对话拼接处理,拒绝采样微调增强特定领域能力 [10][12] - 中文任务表现突出:CLUEWSC得分92.6,C-Eval得分92.2,MATH500得分84.8 [10] - 英文基准测试表现稳定全面,与Qwen2.5/Qwen3系列具有竞争力 [10] 团队发展与愿景 - hi lab由原大模型技术与应用产品团队升级组成 [11] - 组建"AI人文训练师"团队,融合人文背景研究者与AI专家提升AI人文素养 [13] - 目标拓展人际智能、空间智能等多维智能形式,使AI成为人类自然有益的伙伴 [13]
刚刚,Qwen3 终于发布!混合推理模式、支持MCP,成本仅DeepSeek R1三分之一,网友喊话小扎:工程师要赶紧加班了
AI前线· 2025-04-29 07:57
核心观点 - 阿里巴巴发布并开源新一代通义千问模型Qwen3,采用混合专家(MoE)架构,总参数量235B,激活仅需22B,成本大幅下降,性能全面超越全球顶尖模型[2][3] - Qwen3是国内首个"混合推理模型",集成"快思考"与"慢思考",可根据需求灵活调整算力消耗[4] - Qwen3在推理、指令遵循、工具调用、多语言能力等方面大幅增强,创下国产及全球开源模型性能新高[5] - Qwen3部署成本大幅下降,仅需4张H20即可部署满血版,显存占用仅为性能相近模型的三分之一[8] - Qwen3提供丰富的模型版本,包含2款MoE模型和6款稠密模型,均斩获同尺寸开源模型最佳性能[9] - Qwen3采用Apache2.0协议开源,支持119多种语言,全球开发者可免费下载商用[10] 模型架构与性能 - Qwen3采用混合专家(MoE)架构,总参数量235B,激活仅需22B,参数量仅为DeepSeek-R1的1/3[3] - Qwen3-235B-A22B在ArenaHard测评中获95.6分,超越OpenAI-o1及DeepSeek-R1[5] - Qwen3在AIME25测评中斩获81.5分,刷新开源纪录;LiveCodeBench评测突破70分,表现超过Grok3[5] - Qwen3-235B-A22B在CodeForces Elo Rating中获2056分,超越OpenAI-o1的1891分[6] - Qwen3-30B-A3B MoE模型在ArenaHard测评中获91.0分,超越Qwen2.5-72B-Instruct的81.2分[7] 部署与成本 - Qwen3仅需4张H20即可部署满血版,显存占用仅为性能相近模型的三分之一[8] - 官方建议使用SGLang和vLLM等框架进行部署,本地使用推荐Ollama、LMStudio等工具[8] - Qwen3-30B参数MoE模型实现10倍以上性能杠杆提升,仅激活3B就能媲美上代Qwen2.5-32B模型性能[9] - Qwen3稠密模型一半参数量可实现同样高性能,如32B版本可跨级超越Qwen2.5-72B性能[9] 训练与数据 - Qwen3使用约36万亿个token进行预训练,是Qwen2.5的两倍,涵盖119种语言和方言[20] - 预训练分为三个阶段:基础语言能力训练、知识密集型数据训练和长上下文能力训练[22] - Qwen3从网页和PDF等文档中提取数据,并利用Qwen2.5系列模型提升数据质量和生成合成数据[21] - Qwen3稠密基础模型整体性能达到参数量更大的Qwen2.5基础模型水平,在STEM等领域甚至超越[25] 功能特点 - Qwen3支持混合思维模式,用户可按需设置"思考预算",灵活满足不同场景需求[12] - 思考模式适用于复杂问题,非思考模式适合简单问题[13] - Qwen3增强对Agent支持,优化编码和Agent能力,增强对MCP的支持[15] - 在BFCL评测中Qwen3创下70.8的新高,超越Gemini2.5-Pro、OpenAI-o1等顶尖模型[16] - Qwen3原生支持MCP协议,具备强大的工具调用能力,结合Qwen-Agent框架降低编码复杂性[16] 社区与生态 - Qwen3发布后,苹果机器学习研究员Awni Hannun测试显示其在M2 Ultra上运行非常快[31] - 网友评价Qwen3-235B-A22B感觉像是原始o1博客文章中的推理轨迹和R1 zero的结合[32] - 阿里通义已开源200余个模型,全球下载量超3亿次,Qwen衍生模型数超10万个,已超越美国Llama[35]
速递|印度初创公司Ziroh Labs,推出无需高端芯片即可运行大型AI模型
Z Potentials· 2025-04-11 12:20
印度AI初创公司Ziroh Labs的技术突破 - 公司推出名为Kompact AI的框架,可在CPU上运行大型AI模型,无需依赖高端GPU [1][2] - 该技术与印度马德拉斯理工学院合作开发,优化主流AI模型使其在个人电脑上运行 [2][3] - 演示中成功在搭载英特尔至强处理器的笔记本电脑上调用Llama 2和Qwen2.5等模型 [3] 技术应用与行业影响 - 方法聚焦AI推理阶段,已通过英特尔和超威半导体测试,宣称能带来高质量成果 [3] - 技术顾问威廉·拉杜切尔预测该技术将对市场产生深远影响 [3] - 解决印度开发者因GPU短缺和高成本面临的AI研究及部署障碍 [3] 行业背景与趋势 - DeepSeek以低成本打造竞争力AI模型的成功案例推动行业关注效率提升 [2] - 印度理工学院马德拉斯分校指出AI鸿沟源于高端GPU资源垄断,新技术证明低配设备可行性 [3]
50条数据解锁空间智能,RL视觉语言模型3D空间推理框架MetaSpatial |西北大学
量子位· 2025-03-22 15:49
文章核心观点 - 提出MetaSpatial框架,将基于规则奖励的强化微调范式迁移至视觉语言模型的空间布局场景,提升模型空间推理与布局生成质量,实验验证其有效性与通用性,可应用于多种现实场景 [2][3][26] 现有方法问题 - 现有视觉语言模型在三维空间理解任务中缺乏对三维空间结构的真实建模,难以满足物理约束与功能合理性 [1] - 多智能体交互方法计算成本高,易陷入死锁无法收敛至有效解 [1] - 监督微调方法受空间任务限制,无法全面覆盖合理解空间,限制模型泛化能力与生成多样性 [1] MetaSpatial框架 核心问题与特性 - 提出是否可通过规则驱动的强化学习策略为视觉语言模型注入空间推理能力的问题 [2] - 三维布局任务具备强化学习适用特性,强化学习适用于缺乏唯一标准答案、解空间复杂多样的任务 [2] 框架内容 - 首次将基于规则奖励的强化微调策略迁移至视觉语言模型的空间布局场景,构建可程序化评估的奖励函数,引入多轮布局refinement机制 [3] 输入与输出形式 - 输入包括场景图像或房间结构图、房间几何尺寸信息、用户偏好描述、需要布局的目标物体列表 [6][7][8] - 输出包括语言化的推理过程和结构化布局JSON [13] 奖励函数与惩罚机制设计 - 构建三级奖励信号,从结构合法性、物理合理性和主观偏好三个维度评价模型输出,最终奖励为三者加权组合 [12][17] Trajectory生成与多轮布局优化 - 训练阶段采用multi - turn rollout策略,允许模型对布局结果进行多轮refinement,提高布局能力并提供高质量决策路径 [19] 策略优化 - 引入Group Relative Policy Optimization,利用同一输入样本生成的多条trajectory作为一个group进行比较性学习,在样本极少情况下稳定学得空间决策能力 [21][22] 实验结果 - Qwen2.5的7B和3B模型从MetaSpatial框架受益,7B模型性能提升更显著,3B模型在输出格式生成方面存在困难 [23] - 强化学习训练后,模型生成的布局更结构化、逼真,语义更连贯,表现出更强的空间感知等能力 [29] 总结 - 提出MetaSpatial框架,使视觉语言模型直接生成结构合理的三维场景 [30] - 引入多轮布局优化机制与GRPO策略,让模型学习更具泛化性与适应性的空间推理能力 [30] - 构建三重奖励体系,为强化学习提供自适应、可扩展的奖励信号 [30] - 实验证明MetaSpatial能显著提升模型在三维场景生成中的布局连贯性、物理一致性和整体质量 [30]