Workflow
机器之心
icon
搜索文档
SFT在帮倒忙?新研究:直接进行强化学习,模型多模态推理上限更高
机器之心· 2025-06-01 11:30
核心观点 - 研究发现监督微调(SFT)在多模态推理中可能阻碍学习,导致伪推理路径,而强化学习(RL)则促进真正的多模态推理 [3][9] - 传统两阶段训练范式(SFT+RL)在视觉语言模型(LVLM)中可能导致性能下降,7B模型相对性能下降47% [11][13] - 纯RL训练方案更具优势,VLAA-Thinker-Qwen2.5VL-3B模型在Open LMM推理榜单4B量级模型中位列第一,以1.8%优势刷新纪录 [15] 数据集构建 - 研究者构建了首个支持SFT与RL的全方位高质量图文推理数据集VLAA-Thinking,包含203,182条原始数据和144,895条处理后的数据 [4][5] - 数据集包含基于R1模型"先思考后回答"范式生成的完整推理链条,SFT分支包含多模态思维链样本,RL分支筛选更具挑战性的样本 [5] - 数据处理流程分为六阶段:元数据收集→图像描述生成→基于R1的知识蒸馏→答案重写→人工验证→数据划分 [6] SFT与RL对比研究 - SFT提高了模型在标准任务中的性能,但在增强复杂推理方面能力欠缺,可能诱发"伪推理路径"和"伪aha moment" [9] - 对已对齐模型使用SFT+GRPO会导致平均12.7%的性能下降,且模型规模差异影响甚微 [13] - SFT虽可帮助未对齐模型遵循指令,但其模仿式推理会限制RL阶段的探索空间 [15] GRPO训练优势 - 强化学习在增强推理能力方面表现出色,GRPO在文本数学推理任务中比其他方法更有效、更高效 [17] - 研究者提出了混合奖励框架,包含五种可验证的奖励类型,涵盖视觉感知和视觉推理任务 [19] - 直接使用GRPO训练的模型在视觉语言推理任务中显著优于其基础模型 [31] SFT对GRPO的影响 - SFT与多模态推理中的GRPO不兼容,在GRPO训练前进行SFT的模型性能比仅使用GRPO训练的模型更差,平均下降8.9% [21] - SFT对指令模型的性能损害比对没有指令跟随能力的基础模型更大,Qwen2VL-Inst性能比Qwen2VL-Base下降7.7% [21] - 较小的SFT数据集仍然会影响GRPO的性能 [23] 模型性能分析 - 响应长度、奖励分数与性能表现无显著相关性,SFT模型虽能获得更高初始奖励和更长响应,但实际表现逊于纯RL训练模型 [15][24] - SFT仅提供了RL训练的一个更高的"下限",但可能会降低"上限",限制了模型的探索路径 [26] - 经过更好指令调优的模型在GRPO训练后表现更佳,说明高质量的指令调优能够增强模型在强化学习后的推理能力 [31]
极低成本,复现GPT-4o图像风格化一致性!NUS推出OmniConsistency
机器之心· 2025-06-01 11:30
本文由 NUS ShowLab 主导完成。第一作者宋亦仁为新加坡国立大学 ShowLab@NUS 在读博士生,研究方向是视觉生成和多模态,在 CVPR、SIGGRAPH、 NeurIPS 等国际顶级会议上发表多篇研究成果。共同一作刘成为 NUS 重庆研究院四年级本科生,研究方向是视觉生成。项目负责作者为该校校长青年教授寿政。 不久前,GPT-4o 的最新图像风格化与编辑能力横空出世,用吉卜力等风格生成的效果令人惊艳,也让我们清晰看到了开源社区与商业 API 在图像风格化一致性上 的巨大差距。 目前,开源扩散模型在 image-to-image 风格迁移中普遍面临一个跷跷板困境:要想增强风格化效果,往往会牺牲细节、结构和语义一致性;而要保持一致性,风格 表达则明显退化。 为了解决这一难题,我们提出 OmniConsistency ,利用配对数据复现 GPT-4o 的出色风格化一致性,为开源生态注入接近商业级的能力。 论文标题:OmniConsistency: Learning Style-Agnostic Consistency from Paired Stylization Data 我们的解决方案:Omni ...
CVPR 2025 Highlight | 提升自回归模型样例学习能力,Few-shot图像编辑新范式开源
机器之心· 2025-06-01 11:30
核心观点 - 提出自回归模型InstaManip解决few-shot图像编辑难题 通过分组自注意力机制将学习过程分解为学习阶段和应用阶段 显著提升性能 [1][3][26] - 创新引入关系正则化策略 有效减少示例图片噪声干扰 提高模型鲁棒性 [17][26] - 在in-distribution和out-of-distribution设定下 CLIP-Dir指标分别达19.81和18.27 超越此前最优方法2.68和2.86个点 [20][26] 技术方法 模型架构 - 采用分组自注意力机制 将输入序列分为学习组(文字指令+示例图片+manipulation tokens)和应用组(manipulation tokens+输入图片) 分别对应神经科学中的知识抽象和应用阶段 [16][11] - 通过manipulation tokens存储图像变换特征 实现跨样本知识迁移 公式化为$\mathbb{P}(\mathbb{Z}|\mathbb{T},\mathbb{X}^{\prime},\mathbb{Y})\cdot\mathbb{P}(\mathbb{Y}|\mathbb{X},\mathbb{Z})$ [10][13] 训练优化 - 关系正则化强制变换特征相似性与文字指令相似性一致 使用MSE损失函数 降低无关视觉特征干扰 [17] - 消融实验显示分组自注意力使CLIP-Vis指标提升3.12个点 结合正则化后总提升达3.43个点 [22] 性能表现 基准测试 - 在in-distribution设定下 CLIP-Vis指标达32.39 较次优PromptDiffusion提升4.7个点 在out-of-distribution设定下保持28.23 [20] - 可视化对比显示模型能准确实现"汽车变兰博基尼"等复杂编辑 保留输入图片结构同时注入新特征 [19][23] 扩展性分析 - 示例图片数量从1组增至5组时 CLIP-Dir指标提升15% 多样性增加可使指标额外提升8% [24][25] - 单独使用文字指令或视觉示例时性能下降明显 CLIP-Vis指标分别降低4.37和9.43个点 [23]
低成本下的高性能模型,是悖论还是可能?
机器之心· 2025-06-01 01:15
低成本下的高性能模型 - 用户感知的模型性能下降现象普遍存在,表现为逻辑减弱、错误响应增多等问题,引发对AI公司有意降低模型性能以节省成本的质疑[2] - DeepSeek-R1满血版需要四台8卡一体机支持,硬件成本高达六七百万元,部分厂商采用蒸馏版或量化至4比特参数以降低成本,导致推理能力下降[3][4] - 满血版DeepSeek-R1参数达6710亿,FP8精度需8卡A100一体机运行,但量化至4比特后性能显著降低,用户质疑服务真实性[4] - 行业测算显示,满血版DeepSeek-R1服务每月机器成本4.5亿元,按现行收费标准亏损4亿元,采用AMD芯片方案仍亏损超2亿元[4] - 市场竞争加剧促使大厂采用低价免费策略,MaaS模式普遍亏损,厂商被迫通过模型蒸馏、量化等技术手段降低成本[5][6] 模型降本技术路径 - 行业普遍采用模型量化(如16位转8位)、剪枝和知识蒸馏等技术降低计算复杂度与内存占用,但可能引入误差导致输出精度下降[6] - 低成本方案中高端用户难以获取真正满血版模型,免费或低价服务多采用简化版或蒸馏版模型以平衡成本[6] - 量化通过降低权重数值精度减少硬件需求,但精度损失与性能下降形成核心矛盾[6] 行业竞争与成本压力 - 互联网大厂宣称接入相同满血版模型,但实际服务体验存在显著差异,反映成本控制策略分化[2] - 潞晨科技指出DeepSeek模型高昂成本使服务商利润空间趋零,部分厂商通过降低精度实现扭亏为盈[4] - 低价竞争环境下,厂商需持续探索非精度换性能的替代方案以维持运营[5]
OpenAI未公开的o3「用图思考」技术,被小红书、西安交大尝试实现了
机器之心· 2025-05-31 14:30
多模态推理模型技术突破 - OpenAI推出的o3推理模型首次实现将图像直接融入推理过程,具备"用图思考"能力,在V* Bench基准测试中准确率达95.7%[1] - o3模型可自动聚焦图像关键区域(如物理试卷公式区、建筑图纸承重结构),结合知识库进行深度推理[1] - 小红书团队联合西安交通大学开发DeepEyes模型,通过端到端强化学习实现类似o3的"图像思考"能力,并开源技术细节[1] 多模态推理方法对比 - 传统"先看后想"方法存在局限:推理阶段无法回看图像补充细节,易导致理解偏差[4] - 更有效的"边看边想"方法允许动态调用图像信息,实现视觉与语言交替交互,提升多模态理解能力[4] - DeepEyes展示完整的三步推理流程:全局视觉分析→智能工具调用→细节推理识别,无需依赖外部OCR工具[7][8][9][10] DeepEyes模型架构与训练 - 引入"自驱动视觉聚焦"机制:根据文本推理需求动态裁剪关键图像区域进行深入分析[14] - 采用端到端强化学习策略,不依赖监督微调(SFT),通过outcome-based奖励函数激发原生能力[18][19] - 训练过程经历懵懂期(随机尝试)、探索期(频繁调用工具)、成熟期(精准预判关键区域)三阶段[21] 性能表现与优势 - 在V* Bench取得90.1准确率,HR-Bench超越现有工作流方法,7B版本视觉搜索表现优于Qwen-VL 32B[23] - 五大独特优势:训练更简洁(仅需问答对)、更强泛化能力、端到端联合优化、深度多模态融合、原生工具调用能力[26][27][28] - 数学推理能力显著提升,展示多模态模型跨任务潜力[24] 行业影响 - 开创多模态推理新范式:无需复杂工作流或大规模监督数据,通过强化学习实现视觉-文本深度融合[29] - 技术突破使"图像思考"不再是OpenAI专属,为开放世界多模态智能探索提供新路径[1][29] - 研究团队来自小红书和西安交通大学,成果已在实习期间完成并开源[31]
从性能到实战,怎样才算是靠谱的 Agent 产品?
机器之心· 2025-05-31 14:30
基准测试关注AI业务能力 - 红杉中国团队提出AI基准测试工具Xbench,强调不再单纯追求测评问题难度,而是重点量化AI系统在真实场景的效用价值[1] - Xbench项目于2022年启动,最初为内部工具,经历三次更新后于2025年5月公开[5] - 2023年首批题库针对LLM和智能体的简单问答和逻辑思考能力[5] - 2024年10月第二次更新,关注LLM的复杂问答、推理能力及简单工具调用[5] - 2025年3月第三次升级,开始思考模型能力与AI实际经济价值的关联[6] 双轨评估体系设计 - Xbench构建双轨评估体系:AGI Tracking评估技术能力上限,Profession Aligned量化真实场景效用价值[8] - AGI Tracking线包含科学问题解答测评集(xbench-ScienceQA)和中文互联网深度搜索测评集(xbench-DeepSearch)[9] - Profession Aligned线提出面向招聘和营销领域的垂类Agent评测框架[9] - 评估任务由领域专家设定业务需求,大学教授转化为评估指标,确保基准与生产力价值强相关[7] 首期测试结果分析 - OpenAI的o3模型在所有测试中排名第一,GPT-4o因回答较短得分最低[9] - 模型尺寸非决定性因素,谷歌DeepMind的Gemini-2.5-Pro和Gemini-2.5-Flash表现相当[9] - DeepSeek R1在数学和代码测试出色,但搜索中心任务适应性不足导致整体表现较低[9] 长青评估机制 - 长青评估机制为动态更新系统,避免静态评估集题目泄露导致过拟合[10] - Agent产品迭代速率快且外部环境动态变化,需定期测评主流产品[10] - 计划在人力资源、市场营销、金融等领域构建动态评估机制[10]
SSM+扩散模型,竟造出一种全新的「视频世界模型」
机器之心· 2025-05-31 12:00
研究背景与核心创新 - 研究结合状态空间模型(SSM)、扩散模型和世界模型等前沿技术,开发出新型视频世界模型,实现长期记忆与空间一致性的平衡 [1][9] - 传统视频扩散模型受限于注意力机制,难以维持长期一致性,导致环境模拟失真 [3][4][6] - 创新点在于采用Mamba的逐块扫描方案,配合局部注意力机制,显著提升长期记忆能力同时保持计算效率 [9][15][16] 技术架构设计 - 采用空间主/时间次的token排序方式,确保因果约束并防止未来信息泄露 [11] - 提出逐块重新排序方法:将token序列分解为(b_h,b_w,T)块,通过调整块大小平衡时间相关性与空间一致性 [13][15] - 引入帧局部注意力模块,采用窗口大小为k的因果注意力机制增强短期一致性 [16] - 动作条件处理:通过MLP处理连续动作值,直接学习离散动作嵌入实现交互控制 [17] 训练与推理优化 - 改进训练方案:保持随机长度前缀完全无噪声,强制模型学习长期依赖性 [18] - 推理阶段仅需维护前k帧KV缓存和块SSM状态,实现恒定内存占用和生成速度 [21] - 训练成本随上下文长度线性增长,显著优于传统二次复杂度模型 [39] 实验性能表现 Memory Maze数据集 - 检索任务(400帧):SSIM达0.898,显著优于Mamba2(0.747)和因果Transformer(0.829) [25] - 推理任务(224帧):SSIM达0.855,优于所有次二次模型 [26] - 长期记忆能力与全上下文因果Transformer(SSIM 0.914)接近 [25][27] TECO Minecraft数据集 - 推理任务(50帧):SSIM达0.454,优于DFoT(0.450)和25帧上下文因果Transformer(0.417) [33] - 能准确预测已探索区域,而有限上下文模型失效 [36] 效率优势 - 训练时间线性扩展,推理保持恒定内存和计算成本 [39] - 单次前向传递速度显著快于全注意力机制 [39]
从打分器到思考者:RM-R1用推理重塑模型价值判断
机器之心· 2025-05-31 12:00
核心观点 - RM-R1框架将奖励建模重新定义为推理任务,提出推理奖励模型(ReasRMs),通过生成结构化评估标准和推理过程提升模型可解释性和性能[1][5] - 实验验证推理能力是奖励模型关键要素,两阶段训练范式(推理蒸馏+强化学习)展现出高效性,链式评估准则(CoR)机制带来深度可解释性与卓越性能[33][34][35] - RM-R1在多个基准测试中超越更大规模的开源和闭源模型,性能提升高达8.7%,证明推理能力比模型规模更重要[25][26] 技术架构 - 引入链式评估准则(CoR)机制,将任务动态分类为推理型或对话型,分别采用内部专家解决方案或定制化评估准则进行多维度判断[9][10][11][12] - 推理型任务要求模型先自行生成解决方案作为基准,对话型任务则生成带权重的评估准则和理由,实现类似人类的复杂偏好判断[11][12] - CoR机制通过预定义逻辑序列、任务特定评估和透明推理痕迹,实现深度元推理能力[13] 训练方法 - 采用两阶段训练流程:推理蒸馏阶段从高质量推理链提取知识,强化学习阶段用可验证奖励信号优化推理能力[17][18][19] - 消融研究表明推理蒸馏是关键因素,单独的强化学习无法弥补性能差距,CoR提示工程显著优化推理过程[30] - 仅需8.7K蒸馏示例即可达到与800K示例训练模型相当的性能,展现卓越数据效率[31] 性能表现 - RM-R1-DeepSeek-Distilled-Qwen-32B在数学和代码任务中准确率分别达91.8%和74.1%,远超此前最佳表现(数学73%,代码63%)[26] - 模型规模与性能呈线性关系,32B版本在多个基准平均表现达81.5%,超越INF-ORM-Llama3.1-70B和GPT-4o等大模型[25][26] - 在RM-Bench推理密集型基准上,14B版本性能达79.6%,32B版本提升至81.5%,显示计算预算增加对推理能力的积极影响[26][29] 行业意义 - 开创基于推理的可解释奖励范式,为大模型对齐研究提供新方向,强调认知能力提升比规模扩张更重要[32][34] - 结构化推理方法使模型能处理复杂场景判断,在安全、数学等专业领域展现突破性进展[8][26] - 小模型高效训练路径为资源有限团队提供实际部署方案,具有显著经济优势[31][35]
250美元起售,还开源,Hugging Face 发布史上最亲民人形机器人
机器之心· 2025-05-31 12:00
开源机器人发布 - Hugging Face开源两款人形机器人HopeJR和Reachy Mini,推动马斯克2040年百亿机器人预言实现[1] - HopeJR为全尺寸人形机器人,具备66个驱动自由度,可行走和手臂移动[3] - Reachy Mini是桌面机器人,可移动头部、说话、倾听,用于AI应用测试[5] 产品定价与供应 - HopeJR售价约3000美元,Reachy Mini售价250-300美元,显著低于宇树G1的16000美元[7] - 首批机器人预计2024年底发货,已开放等候名单[7] - 两款机器人均提供完整物料清单和零件采购链接[16][21] 技术细节与功能 - HopeJR需手动录制动作数据,通过模仿学习算法训练自主控制策略[10] - 目前HopeJR仅在3D模拟环境行走,计划向现实世界转移[12] - HopeJR配备机械臂,可通过专用手套远程控制执行握手、指向等任务[13] 设计特点与用户反馈 - HopeJR设计粗糙,头部框架结构类似动画角色班德[9] - 网友评价HopeJR动作像患帕金森症,外观不太聪明[8][14] - Reachy Mini采用可伸缩颈部设计,基于Pollen Robotics的Orbita执行器技术[17][18] 应用场景与生态建设 - Reachy Mini可用于工业自动化AI模型测试,如人机交互场景[20] - Reachy 2已展示多语言理解能力,集成GPT-4实现带情绪响应[23][24] - Hugging Face构建开源机器人生态,包括LeRobot项目和SO-100机械臂[26][28] 行业影响与开源价值 - 开源模式打破技术壁垒,使机器人技术不再被大公司垄断[7][28] - 开源硬件平台有望像开源软件一样推动行业加速发展[30] - 社区共同塑造的"公共智慧"将成为机器人进化新范式[30]
具身进化·无界未来:这场论坛引领具身智能模型革命新浪潮
机器之心· 2025-05-30 17:33
具身智能技术发展 - 具身AI模型与人形机器人结合为AGI进入物理世界提供新可能,多模态大模型和世界模型推动具身智能进化 [1] - 新型大物理模型(如CoA行动链)在泛化性、端到端训练和统一大小脑功能上优于传统思维链(CoT),并已开发世界模型、仿真平台等工具 [6] - 脉冲神经网络实现机械臂类脑仿生控制,通过仿生算法和计算神经结构达成复杂环境下的自适应与灵巧操作 [10] 产业应用与商业化路径 - 智能机器人需满足V(感知)-L(理解)-A(行动)闭环,产品化需聚焦用户场景划分、技术交叉点及低失效成本场景 [8] - 视觉大模型(VLM)通过开源强化学习框架提升机器人环境感知与决策能力,联汇科技展示VLM-R1框架及终端联动案例 [12] - 模块化关节设计颠覆传统机器人开发,星际光年开源方案使灵巧手成本与周期显著降低 [12] 行业生态与未来展望 - 张江依托"一中心、两基地"布局推动人形机器人产业加速,集聚科研资源完善政策环境 [4] - 世界模型和Scaling Law被视为具身智能算法潜力方向,生成式AI可缩小虚拟与现实差距 [13] - 工业搬运、商超展厅为优先落地场景,预计5-10年内或进入C端家庭市场 [13] - 合成数据可百倍放大真实数据价值,解决训练数据稀缺问题,仿真数据在泛化性和采集效率上优势显著 [14]