强化学习(Reinforcement Learning)

搜索文档
卡卡卡卡卡……马卡龙是真的卡,但态度也是真的好
36氪· 2025-08-23 17:06
产品定位与核心功能 - 马卡龙被定义为全球首款Personal Agent 专注于满足私人个性化需求而非生产力工具[4] - 产品定位为"超懂你的AI" 核心功能是一句话生成专属小工具[7] - 通过强化学习驱动的深度记忆系统实现长上下文保持和个性化交互[35][37] 交互特性与用户体验 - 采用高度拟人化对话设计 表现为活泼的ENFJ人格类型 主动引导话题并持续提问[9][10] - 具备个性化头像生成能力 根据用户特征显示8种不同颜色的标识[13] - 对话界面采用单线程设计 所有交互基于连续上下文记忆实现[32] 技术实现与架构 - 基于DeepSeek开源技术训练RL-powered Deep Memory系统[35] - 采用强化学习机制优化记忆管理 通过奖惩训练区分有用信息[36][37] - 完全黑箱式小工具生成模式 不显示代码过程 直接交付完整应用[21] 功能表现与局限性 - 小工具生成耗时约20分钟 加载时间需1分钟左右[21][25] - AI识别功能存在准确性问题 如将"香溢金枪鱼三明治"误识别为"意式潜艇堡"[25] - 存在系统稳定性问题 部分优化任务出现超过6小时的交付延迟[30] 商业模式与产品策略 - 采用需求诱捕机制 通过持续对话挖掘用户潜在需求[15][19] - 坚持"半可用"产品理念 优先快速交付基础功能再迭代优化[7] - 目前仅支持iOS移动端 尚未覆盖其他平台[7]
OTC‑PO重磅发布 | 揭开 o3 神秘面纱,让 Agent 少用工具、多动脑子!
机器之心· 2025-05-07 12:34
核心观点 - 研究提出OTC-PO框架,通过强化学习优化大语言模型工具使用行为,在保持准确率前提下显著提升效率(工具调用减少73.1%,工具效率提升229.4%)[10][15] - 首次量化认知卸载现象,发现模型越大越依赖外部工具而削弱自身推理能力[13][16] - 提出工具生产力概念,兼顾答案正确性与调用成本,实现Minimizing Acting=Maximizing Reasoning的智能行为模式[13][21] Agent行为模式 - 核心分为推理(Reasoning)和行动(Acting)两种模式,前者涉及反思/分解等思考技巧,后者涉及工具/API调用[4] - 现有方法仅关注最终答案正确性,导致过度优化问题:过度依赖工具(认知卸载)或过度推理[5][7] - 理想行为应动态平衡两者,如OpenAI o3仅在超出能力范围时调用工具[7] 方法论创新 - 定义最优工具调用次数n,要求模型在答对前提下最小化成本($\operatorname*{arg\,min}_{\tau}\mathrm{Cost}(\tau)$)[11] - 设计奖励函数$r_{\phi}^{tool}(q,y)=\alpha*r_{tool}*r_{\phi}(q,y)$,结合工具效率与答案正确性[12][14] - OTC-PO框架通用性强,代码修改仅需数行即可适配现有RL算法[13] 实验结果 - 7B模型工具生产力最高提升256.9%,工具调用减少73.1%[15] - GRPO算法优于PPO,因多采样能更精准估计最优工具调用次数[16] - 训练效率提升:响应时间缩短,资源消耗降低(图表显示优化曲线更陡峭)[18] - 跨领域测试(OOD)表现优异,部分场景准确率与效率同步提升[20] 行业意义 - 为构建类似OpenAI o3的智能体提供可行路径,推动Agent研究范式转变[22] - 首次将RL应用于工具使用行为优化,开辟大模型效率提升新方向[13][22]
用多模态LLM超越YOLOv3!强化学习突破多模态感知极限|开源
量子位· 2025-05-03 12:05
多模态大语言模型Perception-R1的突破性进展 - 华中科技大学、北京邮电大学等高校联合推出Perception-R1(PR1),首次在COCO2017 val set上突破30AP,超越YOLOv3(27.9AP)和Faster-RCNN(35.6AP)等传统模型 [1][19] - 该框架专注于纯视觉任务(目标检测、计数)和视觉语言任务(OCR、grounding),通过基于规则的强化学习(RL)优化感知策略,显著提升模型对视觉信息的理解精度 [1][6][11] - 采用Group Relative Policy Optimization(GRPO)技术,通过多轮尝试、奖励建模和策略更新机制优化模型输出,例如在边界框任务中使用IoU作为奖励指标 [9][12] 技术实现与创新 - Perception-R1作为后训练框架,可增强现有MLLM(如Qwen2-VLInstruct-2B)的视觉能力,无需从头训练 [7] - 奖励函数设计包含三部分:视觉细节提取(如OCR任务使用编辑距离)、逻辑操作执行(如点检测计数)、输出格式验证(正确格式+1分,错误-1分) [11][13][17] - 针对多物体检测的匹配难题,采用二分图匹配和匈牙利算法计算最优奖励,确保预测与真实标注的准确对应 [14] 性能表现与行业影响 - 在Pixmo-Count视觉计数任务中达到78.1分(测试集75.6分),远超LLaVA-1.5(33.3分)和Qwen2-VL(60.2分) [19] - OCR任务(PageOCR)编辑距离仅3.5(英文)和9.0(中文),F1-score达98.2(英文)和94.4(中文),优于Nougat(25.5)和DocOw(25.8) [18] - 在MMBench等综合评测中,Perception-R1以71.8平均分展现全面优势,尤其在MMVet(48.9分)和AI2D(58.2分)等需复杂推理的任务中领先 [21] 未来发展方向 - 研究表明任务复杂度与RL效果正相关,为大规模扩展提供验证基础,例如模型参数量从2B扩展到3B时AP提升至31.9 [19][23] - 挑战了视觉任务依赖语言推理的传统假设,为下一代智能感知系统奠定技术路径,例如通过显式思维链(thinking)优化策略 [24][25] - 论文与代码已开源,旨在推动社区建立更强基线,加速多模态感知技术迭代 [2][26]
50条数据解锁空间智能,RL视觉语言模型3D空间推理框架MetaSpatial |西北大学
量子位· 2025-03-22 15:49
文章核心观点 - 提出MetaSpatial框架,将基于规则奖励的强化微调范式迁移至视觉语言模型的空间布局场景,提升模型空间推理与布局生成质量,实验验证其有效性与通用性,可应用于多种现实场景 [2][3][26] 现有方法问题 - 现有视觉语言模型在三维空间理解任务中缺乏对三维空间结构的真实建模,难以满足物理约束与功能合理性 [1] - 多智能体交互方法计算成本高,易陷入死锁无法收敛至有效解 [1] - 监督微调方法受空间任务限制,无法全面覆盖合理解空间,限制模型泛化能力与生成多样性 [1] MetaSpatial框架 核心问题与特性 - 提出是否可通过规则驱动的强化学习策略为视觉语言模型注入空间推理能力的问题 [2] - 三维布局任务具备强化学习适用特性,强化学习适用于缺乏唯一标准答案、解空间复杂多样的任务 [2] 框架内容 - 首次将基于规则奖励的强化微调策略迁移至视觉语言模型的空间布局场景,构建可程序化评估的奖励函数,引入多轮布局refinement机制 [3] 输入与输出形式 - 输入包括场景图像或房间结构图、房间几何尺寸信息、用户偏好描述、需要布局的目标物体列表 [6][7][8] - 输出包括语言化的推理过程和结构化布局JSON [13] 奖励函数与惩罚机制设计 - 构建三级奖励信号,从结构合法性、物理合理性和主观偏好三个维度评价模型输出,最终奖励为三者加权组合 [12][17] Trajectory生成与多轮布局优化 - 训练阶段采用multi - turn rollout策略,允许模型对布局结果进行多轮refinement,提高布局能力并提供高质量决策路径 [19] 策略优化 - 引入Group Relative Policy Optimization,利用同一输入样本生成的多条trajectory作为一个group进行比较性学习,在样本极少情况下稳定学得空间决策能力 [21][22] 实验结果 - Qwen2.5的7B和3B模型从MetaSpatial框架受益,7B模型性能提升更显著,3B模型在输出格式生成方面存在困难 [23] - 强化学习训练后,模型生成的布局更结构化、逼真,语义更连贯,表现出更强的空间感知等能力 [29] 总结 - 提出MetaSpatial框架,使视觉语言模型直接生成结构合理的三维场景 [30] - 引入多轮布局优化机制与GRPO策略,让模型学习更具泛化性与适应性的空间推理能力 [30] - 构建三重奖励体系,为强化学习提供自适应、可扩展的奖励信号 [30] - 实验证明MetaSpatial能显著提升模型在三维场景生成中的布局连贯性、物理一致性和整体质量 [30]