Workflow
强化学习(Reinforcement Learning)
icon
搜索文档
OTC‑PO重磅发布 | 揭开 o3 神秘面纱,让 Agent 少用工具、多动脑子!
机器之心· 2025-05-07 12:34
王鸿儒目前就读于香港中文大学博士四年级 (预计今年7月毕业),导师为黄锦辉教授,研究方向主要包括对话系统,工具学习以及大语言模型智能体等, 英国爱丁堡大学和美国伊利诺伊大学香槟分校(UIUC)访问学者,在国际顶级会议如NeurIPS, ACL, EMNLP等发表30余篇相关论文,其中包括10多篇一作或 共一论文,代表工作有Cue-CoT, SAFARI, AppBench, Self-DC, OTC等,谷歌学术引用超600次,NeurIPS Area Chair以及多个国际顶级会议审稿人, NICE社区初创成员,曾获得国际博士生论坛最佳论文奖,ACL 2024@SIGHAN 最佳论文奖,WWW2024 Online Safety Prize Challenge冠军等多项荣 誉。 Agent 即一系列自动化帮助人类完成具体任务的智能体或者智能助手,可以自主进行推理,与环境进行交互并获取环境以及人类反馈,从而最终完成给定的 任务,比如最近爆火的 Manus 以及 OpenAI 的 o3 等一系列模型和框架。 强化学习(Reinforcement Learning)被认为是当下最具想象力、最适合用于 Agent 自 ...
用多模态LLM超越YOLOv3!强化学习突破多模态感知极限|开源
量子位· 2025-05-03 12:05
于恩 投稿 量子位 | 公众号 QbitAI 超越YOLOv3、Faster-RCNN,首个在COCO2017 val set上突破30AP的 纯多模态开源LLM 来啦! 华中科技大学、北京邮电大学等多所高校研究团队共同推出的 Perception-R1 (PR1) ,在视觉推理中最基础的感知层面,探究rule- based RL能给模型感知pattern带来的增益。 PR1重点关注当下主流的 纯视觉 (计数,通用目标检测) 以及 视觉语言 (grounding,OCR) 任务,实验结果展现出在模型感知策略上 的巨大潜力。 然而,在识别物体和真正以细致入微的理解和逻辑感知视觉世界之间存在微妙的差异。虽然MLLM在一般的视觉问答方面越来越出色,但它们 在需要精确物体定位、准确计数多个物体、在复杂布局中完美阅读文本或执行复杂视觉推理的任务上常常表现不佳。这就像知道图片中有一只 猫和能够精确指出它的耳朵、计算它的胡须或理解它与其他物体的互动之间的区别。 强化学习的崛起与Perception-R1的诞生 强化学习 (Reinforcement Learning, RL) 引发了语言模型的范式转变。像RLHF (来自人 ...
50条数据解锁空间智能,RL视觉语言模型3D空间推理框架MetaSpatial |西北大学
量子位· 2025-03-22 15:49
文章核心观点 - 提出MetaSpatial框架,将基于规则奖励的强化微调范式迁移至视觉语言模型的空间布局场景,提升模型空间推理与布局生成质量,实验验证其有效性与通用性,可应用于多种现实场景 [2][3][26] 现有方法问题 - 现有视觉语言模型在三维空间理解任务中缺乏对三维空间结构的真实建模,难以满足物理约束与功能合理性 [1] - 多智能体交互方法计算成本高,易陷入死锁无法收敛至有效解 [1] - 监督微调方法受空间任务限制,无法全面覆盖合理解空间,限制模型泛化能力与生成多样性 [1] MetaSpatial框架 核心问题与特性 - 提出是否可通过规则驱动的强化学习策略为视觉语言模型注入空间推理能力的问题 [2] - 三维布局任务具备强化学习适用特性,强化学习适用于缺乏唯一标准答案、解空间复杂多样的任务 [2] 框架内容 - 首次将基于规则奖励的强化微调策略迁移至视觉语言模型的空间布局场景,构建可程序化评估的奖励函数,引入多轮布局refinement机制 [3] 输入与输出形式 - 输入包括场景图像或房间结构图、房间几何尺寸信息、用户偏好描述、需要布局的目标物体列表 [6][7][8] - 输出包括语言化的推理过程和结构化布局JSON [13] 奖励函数与惩罚机制设计 - 构建三级奖励信号,从结构合法性、物理合理性和主观偏好三个维度评价模型输出,最终奖励为三者加权组合 [12][17] Trajectory生成与多轮布局优化 - 训练阶段采用multi - turn rollout策略,允许模型对布局结果进行多轮refinement,提高布局能力并提供高质量决策路径 [19] 策略优化 - 引入Group Relative Policy Optimization,利用同一输入样本生成的多条trajectory作为一个group进行比较性学习,在样本极少情况下稳定学得空间决策能力 [21][22] 实验结果 - Qwen2.5的7B和3B模型从MetaSpatial框架受益,7B模型性能提升更显著,3B模型在输出格式生成方面存在困难 [23] - 强化学习训练后,模型生成的布局更结构化、逼真,语义更连贯,表现出更强的空间感知等能力 [29] 总结 - 提出MetaSpatial框架,使视觉语言模型直接生成结构合理的三维场景 [30] - 引入多轮布局优化机制与GRPO策略,让模型学习更具泛化性与适应性的空间推理能力 [30] - 构建三重奖励体系,为强化学习提供自适应、可扩展的奖励信号 [30] - 实验证明MetaSpatial能显著提升模型在三维场景生成中的布局连贯性、物理一致性和整体质量 [30]