动态强化学习

搜索文档
业界突破多模态泛化推理能力,OPPO研究院&港科广提出OThink-MR1技术
量子位· 2025-03-30 10:37
OThink-MR1团队 投稿 量子位 | 公众号 QbitAI SFT就像是老师给学生划重点,让学生按照固定的模式学习。虽然这种方法在特定任务上确实能让模型表现得不错,但难以培养关键的通用推 理能力。 与此同时, 强化学习(RL) 作为另一种训练方法,开始进入人们的视野。 RL就像是让学生在不断尝试中学习,做得好就给奖励,做得不好就"挨批评"。这种方法理论上可以让模型更灵活地应对各种任务,提升其推理 能力,但却存在多模态任务通用能力未充分探索、训练约束易导致次优瓶颈等问题。 用上动态强化学习,多模态大模型也能实现泛化推理了?! 来自OPPO研究院和港科广的科研人员提出了一项新技术—— OThink-MR1 ,将强化学习扩展到多模态语言模型,帮助其更好地应对各种复 杂任务和新场景。 研究人员表示, 这一技术使业界突破多模态泛化推理能力 。 众所周知,多模态大模型可以处理多种类型输入数据并生成相关输出,但一遇到复杂推理任务,其能力往往表现不佳。 目前大多数多模态模型在训练时,主要采用 监督微调(SFT) 的方法。 于是乎,OThink-MR1技术应运而生。 那么,它是如何让多模态模型突破泛化推理能力的呢? 基于 ...