QWen2.5

搜索文档
突破全模态AI理解边界:引入上下文强化学习,赋能全模态模型“意图”推理新高度
量子位· 2025-07-08 15:30
多模态大语言模型技术突破 - 当前多模态推理模型存在两大核心问题:全局上下文理解不足(模型错误解读多模态证据)和捷径问题(忽视关键线索直接给出答案)[2][3][4] - 阿里巴巴通义实验室推出HumanOmniV2解决方案,强调模型需基于全局上下文理解进行推理,避免遗漏多模态线索[4] - 创新性采用强制上下文总结机制,要求模型在推理前先输出对多模态输入的概括,确保全面性[12] 技术架构优化 - 引入三维奖励机制:上下文奖励(评估上下文一致性)、格式奖励、准确性奖励协同作用[13][14] - 通过LLM评估逻辑奖励,激励模型融合反思/演绎/归纳等高级逻辑分析方法[15] - 改进GRPO训练策略:采用令牌级损失解决长序列不平衡、移除问题级归一化项消除优化偏差、动态KL散度提升探索能力[16][19][20] 数据集与基准创新 - 构建全模态推理训练数据集,涵盖图像/视频/音频理解任务,附带多模态输入总结和推理路径[23] - 推出IntentBench评估基准,包含633个视频和2,689个问题,专注测试复杂人类意图理解能力(对比Daily-Omni/WorldSense更侧重社会关系推理)[23] 性能表现 - HumanOmniV2在Daily-Omni达到58.47%、WorldSense 47.1%、IntentBench 69.33%准确率,超越现有开源模型[24] - 在视频-音频多模态任务中,7B版本以58.47%平均准确率显著领先VideoLLaMA2(35.17%)和Qwen2.5-Omni 7B(47.45%)[25] - 在文化/科技等细分领域评估中,7B模型以47.1%平均准确率超越GPT-4o(42.6%)和Claude 3.5 Sonnet(34.8%)[27] 开源与资源 - 完整开源代码/模型/数据,提供GitHub/arXiv/ModelScope/HuggingFace多平台访问入口[29]
Meta-Think ≠ 记套路,多智能体强化学习解锁大模型元思考泛化
机器之心· 2025-07-03 11:26
大模型元思维推理框架ReMA 核心观点 - 提出强化元思维智能体(ReMA)框架,通过多智能体强化学习实现大语言模型的"元思维"能力,即监控、评估和控制自身推理过程的能力 [3][4][6] - 将复杂推理解耦为元思维智能体(战略规划)和推理智能体(执行计算)的双层架构,通过多智能体协作提升探索效率和泛化能力 [10][11][12] - 在数学推理和LLM-as-a-Judge基准测试中,ReMA平均性能优于基线方法,如Llama3-8B在AMC23数据集提升20% [27][28] 方法论创新 - **架构设计**:采用层级化多智能体系统(MAS),相比单智能体方法(如DeepSeek R1)降低探索难度,避免动作空间过大问题 [8][12] - **训练机制**: - 单轮场景使用GRPO和REINFORCE++算法优化,奖励函数兼顾回答正确性与格式规范性 [19] - 多轮场景引入参数共享和轮次级比率(turn-level ratio)技术,提升训练稳定性 [20][22][23] - **数据生成**:从LIMO数据集转换800条多轮MAMRP样本作为冷启动数据 [37] 实验结果 - **单轮测试**: - Llama3-8B在7个数学基准平均提升6.68%,Qwen2.5-7B在AIME24提升13.33% [27] - 元思维指导使困难任务准确率提升更显著,如Llama3-8B在AMC23从2.5%提升至22.5% [27][33] - **多轮测试**: - 8B以上模型能自适应选择元思维动作(如DECOMPOSE/REWRITE),小模型(1B)则收敛至简单策略 [36] - 共享参数设计使训练效率提升2.3倍,轮次级比率技术加速收敛 [37] 技术局限 - 多轮训练存在不稳定性,测试集提升不明显且对超参数敏感 [40] - 当前基于Deterministic MDP的训练流程可能不适用于Stochastic MDP场景 [39] 资源信息 - 论文已发布于arXiv(编号2503.09501),代码开源在GitHub [8] - 实验涉及Llama3-8B、Qwen2.5-7B等模型,测试覆盖MATH、GSM8K等12个基准数据集 [27][28]
CVPR2025 WAD纯视觉端到端 | 冠军方案技术报告~
自动驾驶之心· 2025-06-29 19:33
技术方案 - 采用3B参数VLM模型解决视觉端到端自动驾驶长尾场景问题 [1] - 两阶段训练方法:阶段一预训练采用自监督方式,使用83小时CoVLA数据和11小时Waymo长尾数据集进行next-token prediction训练 [2] - 阶段二微调使用500段人工标注数据,采用GPRO强化学习方法增强模型鲁棒性 [2] 数据集 - 使用Qwen2.5-VL 72B Instruct模型自动标注WOD-E2E和CoVLA数据集,生成240.5K高质量caption [3] - CoVLA数据集包含10000张前视图片,30秒20Hz日本驾驶视频 [11] - WOD-E2E数据集提供4021段长尾驾驶场景,每段20秒10Hz,8个相机 [11] 模型训练 - 预训练采用Qwen-2.5-VL-3B-Instruct模型,CoVLA VLT训练24小时,WOD-E2E VLT训练10小时 [11] - RL后训练进行2000steps,8 rollouts per sample,耗时12小时 [11] - 推理阶段使用1e-6 temperature for CoT,Greedy decoding for trajectory prediction [11] 评估结果 - 在Waymo test set RFS评分达到7.99,排名第一 [2] - Poutine方案7.99分,Poutine-base 7.91分,RL提升效果不明显但解决头部困难问题 [13] - 验证集消融实验显示Poutine-base No CoVLA得分7.95,Poutine-base No Lang得分7.94 [15] 技术特点 - 将轨迹预测建模为四阶段COT推理序列问题 [9] - 预测5个waypoints后使用cubic-spiline插值生成密集轨迹 [9] - 评估采用RFS指标,通过三个专家打分构建信任区域计算 [11] 行业思考 - 基于VLM/LLM的轨迹预测方法在长尾场景表现优异,但对物理世界理解仍有限 [19] - 3B模型目前尚无法支持10Hz城区NOA,主要作为慢系统配合工作 [19] - VLM+Action model的VLA架构可能是更合理的解决方案 [19]
AI 开始「自由玩电脑」了!吉大提出「屏幕探索者」智能体
机器之心· 2025-06-27 12:02
研究背景与目标 - 研究聚焦于开发能在开放世界图形用户界面(GUI)中自主探索的智能体,这是实现通用人工智能(AGI)的关键路径之一 [2] - 当前大语言模型(LLMs)和视觉语言模型(VLMs)已展现出跨领域任务泛化能力,为GUI智能体开发奠定基础 [2] - 吉林大学团队提出《ScreenExplorer》项目,旨在训练视觉语言模型实现GUI环境自主探索 [3] 方法论创新 - 构建实时交互的在线强化学习框架,智能体通过鼠标/键盘函数调用与真实GUI环境交互 [10][11] - 引入"好奇心机制"解决开放环境反馈稀疏问题,利用世界模型预测状态转移并估算新颖度 [10] - 采用"经验流蒸馏"训练范式,将每代智能体探索经验自动提炼用于下一代微调 [10] - 设计启发式+世界模型驱动的奖励体系,包含轨迹差异奖励、好奇心奖励、格式奖励和意图对齐奖励 [12] - 采用GRPO算法进行强化学习训练,实现多环境并行推理与实时策略更新 [14][15] 实验结果 基础模型表现 - 未经训练的Qwen2 5-VL-3B模型仅能随机点击屏幕,无法打开任何软件 [17] - 经过初步训练后,3B模型可成功打开桌面软件,7B模型能完成"加购物车"完整流程 [18][20] 性能对比 - ScreenExplorer-3B-E1训练后探索多样性达0 51,显著优于基础模型Qwen2 5-VL-3B的0 21 [23] - 7B版本ScreenExplorer-7B-E1表现更优,探索多样性达0 54,超过专用GUI模型doubao-1 5-ui-tars的0 45 [23] - 世界模型好奇心奖励对训练至关重要,去除后模型无法突破冷启动阶段 [26][28] 涌现能力 - 训练后智能体展现出跨模态翻译、现状计划制定和复杂推理等新能力 [29][32][34] - 探索产生的"意图"字段可自动生成标注数据,为后续任务训练提供基础 [34] 技术价值 - 首次实现视觉语言模型在真实GUI环境中的自主探索训练 [35] - 经验流蒸馏技术显著降低对人工标注数据的依赖,实现能力自主进化 [10][35] - 为开发更自主的智能体和实现AGI提供了可行的技术路径 [35]
突破通用领域推理的瓶颈!清华NLP实验室强化学习新研究RLPR
机器之心· 2025-06-27 08:49
余天予,清华大学计算机系一年级博士生,导师为清华大学自然语言处理实验室刘知远副教授。研究兴 趣主要包括高效多模态大模型、多模态大模型对齐和强化学习,在 CVPR、AAAI等人工智能领域的著 名国际会议和期刊发表多篇学术论文,谷歌学术引用1000余次。 Deepseek 的 R1、OpenAI 的 o1/o3 等推理模型的出色表现充分展现了 RLVR(Reinforcement Learning with Verifiable Reward,基于可验证奖励的强化学习)的巨大潜力。 然而,现有方法的应用范围局限于数学和代码等少数领域。面对自然语言固有的丰富多样性,依赖规则 验证器的方法难以拓展到通用领域上。 针对这一关键挑战,清华大学自然语言处理实验室提出了一项关键性技术 —— 基于参考概率奖励的强 化学习(Reinforcement Learning with Reference Probability Reward, RLPR )。 这项技术通过 Prob-to-Reward 方法显著提高了概率奖励(Probability-based Reward, PR)的质 量,相比基于似然度的基线方法取得了明显更佳的性 ...
RoboSense 2025 机器感知挑战赛正式启动
具身智能之心· 2025-06-25 21:52
RoboSense Challenge 2025概述 - 核心目标为系统性评估机器人在真实场景下的感知与理解能力,推动多模态感知模型的稳健性研究[1] - 聚焦动态人群、恶劣天气、传感器故障等复杂环境条件下的感知算法性能挑战[1] - 由新加坡国立大学、南洋理工大学等全球7所顶尖研究机构联合主办,并获得IROS 2025官方认证[5] 赛事时间安排 - 注册开放时间为2025年6月[3] - 第一阶段提交截止2025年8月15日,第二阶段截止9月15日[3] - 颁奖典礼于2025年10月19日在IROS 2025杭州主会场举行[3][46] 五大核心挑战任务 语言驱动的自动驾驶 - 要求构建端到端多模态驾驶模型,实现语言指令到规划轨迹的闭环控制[6][7] - Baseline模型Qwen2.5-VL需4块A100 GPU训练12小时,感知准确率75.5%[13] - 关键技术难点包括多模态时序融合、语言指令泛化及弱感知条件下的决策[13] 社交导航 - 基于RGB-D输入实现符合人类社交规范的动态路径规划[14][15] - Baseline模型Falcon成功率55.84%,需4块RTX 3090训练48小时[19] - 需解决动态行为建模与隐式社交规则编码问题[17] 传感器布局优化 - 评估3D感知模型对不同LiDAR安装配置的适应性[20][21] - Baseline模型BEVFusion-L的mAP为48.8%,单卡RTX 4090需16小时训练[26] - 关键技术包括视角差异建模与结构对齐模块设计[27] 跨模态无人机导航 - 建立语言描述与空地视角图像的语义映射关系[28][29] - Baseline模型GeoText-1652的R@1为13.6,需2块RTX 4090训练12小时[34] - 需解决视角转换带来的纹理缩放与空间反转问题[33] 跨平台3D目标检测 - 要求模型在车辆/无人机/四足机器人等平台保持检测一致性[34][35] - Baseline模型ST3D++的Car AP@0.5为33.7%,单卡RTX 3090训练24小时[39] - 核心挑战为跨平台Domain Gap与视角仿射变化适应[39] 赛事资源与评测 - 提供多源多模态真实场景数据支持研究复现[9] - 采用统一评测平台确保公正性,如codabench.org/eval.ai等[14][19][26][34][39] - 开放Toolkit与代码资源库github.com/robosense2025[8] 奖项设置 - 总奖金池超10,000美元,一等奖奖金5,000美元[40][41] - 设立创新奖(每赛道2项)及参与奖(完成有效提交即可获证明)[40]
强化学习新发现:无需数学样本,仅游戏训练AI推理大增
机器之心· 2025-06-24 14:46
第一作者谢云飞是莱斯大学博士生,导师为通讯作者魏晨教授,研究方向包括多模态生成与理解。 Project Leader 肖俊飞是约翰斯・霍普金斯大学博士生,导师为 Bloomberg Distinguished Professor Alan Yuille。 第二作者马崟淞是约翰斯・霍普金斯大学博士生。 图 1: 我们发现,只在例如贪吃蛇这种游戏上进行强化学习训练,模型就能涌现出领域外的泛化能力,在数学、多学科等多个任务上提高性能。 第三作者兰石懿是英伟达 Research Scientist。 最近,强化学习领域出现了一个颠覆性发现:研究人员不再需要大量数学训练样本,仅仅让 AI 玩简单游戏,就能显著提升其数学推理能力。 此前已有研究发现,即使不提供标准答案,仅用数学问题进行强化学习也能提高模型性能,这让人们开始重新思考强化学习的训练方式。而来自莱斯大学、约翰 斯・霍普金斯大学和英伟达的研究团队更进一步:他们让多模态大语言模型 (MLLM) 玩贪吃蛇等简单游戏,无需任何数学或多学科训练数据,就显著提升了模型 的多模态推理能力。研究团队提出了 ViGaL (Visual Game Learning) 方法,在多个 ...
7B智能体仅凭9个任务训练即超越R1!上交大打造AI-for-AI新范式
机器之心· 2025-06-21 09:33
尽管人工智能(AI)在飞速发展,当前 AI 开发仍严重依赖人类专家大量的手动实验和反复的调参迭代,过程费时费力。这种以人为中心的方式已成为制 约创新速度和通向通用人工智能(AGI)的关键瓶颈。为突破限制, AI-for-AI (AI4AI)应运而生。AI4AI 旨在让 AI 作为智能体来自主设计、优化和改 进 AI 算法,大幅减少人类干预,加速迭代开发周期,推动 AGI 发展进程。 最近,上海交通大学与上海人工智能实验室联合团队最新研究表明,一个仅依赖 7B 参数大模型的 AI 智能体(ML-Agent),采用 "经验学习" 新范式,只 在 9 个机器学习任务上持续探索学习,迭代进化,最终就能设计出超越 671B Deepseek-R1 驱动的智能体设计的 AI 模型, 首次实现了在自主机器学习领域 从 "提示工程" 到 "经验学习" 的范式跃迁,开创了 AI4AI 的新路径 。 论文标题: 论文地址: https://arxiv.org/pdf/2505.23723 代码地址: https://github.com/MASWorks/ML-Agent 传统自主机器学习:费时低效的困境 传统机器学习工程繁琐低 ...
国产SOTA新模型精准get“画(3+6)条命的动物” | 开源
量子位· 2025-06-20 11:28
核心观点 - 当前主流AI图像生成模型在复杂逻辑推理和多模态信息融合方面存在局限,难以理解隐含语义(如"(3+6)条命=猫")[3][6] - 清华大学等机构联合开发的MindOmni模型通过三阶段训练框架显著提升AI的推理生成能力,支持多模态输入下的逻辑链生成[7][9][32] - MindOmni在MMMU等视觉理解基准测试中比Janus-Pro提升10.6%,在GenEval生成任务中取得83%总体分数[38][40] 模型架构 - 基于Qwen2.5-VL构建视觉语言模型,通过ViT提取图像特征并与文本标记序列对齐[14] - 采用OmniGen扩散解码器实现高质量图像生成,通过Transformer层连接器融合视觉与文本特征[15][16] - 支持视觉理解、多模态推理生成和视觉编辑的统一任务处理框架[18] 训练策略 - **基础预训练阶段**:利用图像-文本对训练连接器,通过扩散损失和KL散度优化语义对齐[20][21] - **监督微调阶段**:构建粗细粒度指令数据,结合高性能生成图像提升推理文本生成能力[23][24][25] - **RGPO强化学习**:引入格式奖励和一致性奖励机制,通过KL散度蒸馏避免策略偏移[26][29][30] 性能表现 - **视觉理解**:MMBench测试得分83.2,超越MetaMorph的75.2;RealworldQA得分68.1[37][38][42] - **图像生成**:GenEval基准单物体生成准确率99%,全局关系任务得分89.7,总体分数超越SDXL 2.6B模型[43] - **推理任务**:WISE基准文化知识类得分0.71,时空推理任务可视化结果符合物理规律[45][46][47] 技术验证 - 消融实验证实三阶段训练缺一不可,RGPO算法使WISE基准性能提升12%[50] - 连接器设计和KL系数(0.1-0.3范围)对特征对齐效果影响显著[51]
小米MiMo-VL VS 千问Qwen2.5-VL | 多模态模型实测
理想TOP2· 2025-06-18 19:43
小米多模态模型MiMo-VL-7B性能评测 - MiMo-VL-7B模型在多项测试中表现优于Qwen2.5-VL-7B,尤其在表格识别和数学解题任务中[3][15][29][35] - Think版本模型性能显著优于No-Think版本,在表格识别准确率和数学解题正确率上差异明显[9][15][35][52] - 模型在简单表格识别任务中表现良好,但在中等复杂度表格识别上仍有不足[9][18][26] - 手写体OCR识别是明显短板,所有版本模型表现均不理想[46][52] - 图像识别基础能力完善,在基础视觉问答任务中表现稳定[61][64] 模型对比分析 - MiMo-VL-7B整体性能优于同参数规模的Qwen2.5-VL-7B,但与72B参数模型仍有差距[5][32][68] - 在数学解题任务中,RL-No-Think版本表现不稳定,出现明显错误[35][40] - 表格识别任务中,Think版本能更好处理合并单元格等复杂结构[15][18][26] - 模型继承了Qwen2.5-VL的ViT部分初始化参数,在视觉特征提取方面具有优势[4] 技术实现细节 - 测试采用vLLM框架在单卡4090上运行,支持最大长度12800[64][65] - 模型提供SFT和RL两个版本,均支持Think/No-Think模式[4][5] - 输入处理支持base64编码图像传输,可实现多模态交互[65][66] - 在语言理解任务中,Think模式能显著提升分析推理能力[53][56]