机器之心 - 财报，业绩电话会，研报，新闻

机器之心

搜索文档

机器之心· 2025-06-01 11:30

核心观点 - 研究发现监督微调（SFT）在多模态推理中可能阻碍学习，导致伪推理路径，而强化学习（RL）则促进真正的多模态推理 [3][9] - 传统两阶段训练范式（SFT+RL）在视觉语言模型（LVLM）中可能导致性能下降，7B模型相对性能下降47% [11][13] - 纯RL训练方案更具优势，VLAA-Thinker-Qwen2.5VL-3B模型在Open LMM推理榜单4B量级模型中位列第一，以1.8%优势刷新纪录 [15] 数据集构建 - 研究者构建了首个支持SFT与RL的全方位高质量图文推理数据集VLAA-Thinking，包含203,182条原始数据和144,895条处理后的数据 [4][5] - 数据集包含基于R1模型"先思考后回答"范式生成的完整推理链条，SFT分支包含多模态思维链样本，RL分支筛选更具挑战性的样本 [5] - 数据处理流程分为六阶段：元数据收集→图像描述生成→基于R1的知识蒸馏→答案重写→人工验证→数据划分 [6] SFT与RL对比研究 - SFT提高了模型在标准任务中的性能，但在增强复杂推理方面能力欠缺，可能诱发"伪推理路径"和"伪aha moment" [9] - 对已对齐模型使用SFT+GRPO会导致平均12.7%的性能下降，且模型规模差异影响甚微 [13] - SFT虽可帮助未对齐模型遵循指令，但其模仿式推理会限制RL阶段的探索空间 [15] GRPO训练优势 - 强化学习在增强推理能力方面表现出色，GRPO在文本数学推理任务中比其他方法更有效、更高效 [17] - 研究者提出了混合奖励框架，包含五种可验证的奖励类型，涵盖视觉感知和视觉推理任务 [19] - 直接使用GRPO训练的模型在视觉语言推理任务中显著优于其基础模型 [31] SFT对GRPO的影响 - SFT与多模态推理中的GRPO不兼容，在GRPO训练前进行SFT的模型性能比仅使用GRPO训练的模型更差，平均下降8.9% [21] - SFT对指令模型的性能损害比对没有指令跟随能力的基础模型更大，Qwen2VL-Inst性能比Qwen2VL-Base下降7.7% [21] - 较小的SFT数据集仍然会影响GRPO的性能 [23] 模型性能分析 - 响应长度、奖励分数与性能表现无显著相关性，SFT模型虽能获得更高初始奖励和更长响应，但实际表现逊于纯RL训练模型 [15][24] - SFT仅提供了RL训练的一个更高的"下限"，但可能会降低"上限"，限制了模型的探索路径 [26] - 经过更好指令调优的模型在GRPO训练后表现更佳，说明高质量的指令调优能够增强模型在强化学习后的推理能力 [31]

VLAA-Thinker-Qwen2.5VL-3B模型

VLAA-Thinker-Qwen2.5VL-3B模型

极低成本，复现GPT-4o图像风格化一致性！NUS推出OmniConsistency

机器之心· 2025-06-01 11:30

本文由 NUS ShowLab 主导完成。第一作者宋亦仁为新加坡国立大学 ShowLab@NUS 在读博士生，研究方向是视觉生成和多模态，在 CVPR、SIGGRAPH、 NeurIPS 等国际顶级会议上发表多篇研究成果。共同一作刘成为 NUS 重庆研究院四年级本科生，研究方向是视觉生成。项目负责作者为该校校长青年教授寿政。不久前，GPT-4o 的最新图像风格化与编辑能力横空出世，用吉卜力等风格生成的效果令人惊艳，也让我们清晰看到了开源社区与商业 API 在图像风格化一致性上的巨大差距。目前，开源扩散模型在 image-to-image 风格迁移中普遍面临一个跷跷板困境：要想增强风格化效果，往往会牺牲细节、结构和语义一致性；而要保持一致性，风格表达则明显退化。为了解决这一难题，我们提出 OmniConsistency ，利用配对数据复现 GPT-4o 的出色风格化一致性，为开源生态注入接近商业级的能力。论文标题：OmniConsistency: Learning Style-Agnostic Consistency from Paired Stylization Data 我们的解决方案：Omni ...

图像风格化一致性

风格 - 一致性解耦学习方法

Artificial Intelligence

Artificial Intelligence

OmniConsistency

GPT-4o

CVPR 2025 Highlight | 提升自回归模型样例学习能力，Few-shot图像编辑新范式开源

机器之心· 2025-06-01 11:30

核心观点 - 提出自回归模型InstaManip解决few-shot图像编辑难题通过分组自注意力机制将学习过程分解为学习阶段和应用阶段显著提升性能 [1][3][26] - 创新引入关系正则化策略有效减少示例图片噪声干扰提高模型鲁棒性 [17][26] - 在in-distribution和out-of-distribution设定下 CLIP-Dir指标分别达19.81和18.27 超越此前最优方法2.68和2.86个点 [20][26] 技术方法模型架构 - 采用分组自注意力机制将输入序列分为学习组（文字指令+示例图片+manipulation tokens）和应用组（manipulation tokens+输入图片）分别对应神经科学中的知识抽象和应用阶段 [16][11] - 通过manipulation tokens存储图像变换特征实现跨样本知识迁移公式化为$\mathbb{P}(\mathbb{Z}|\mathbb{T},\mathbb{X}^{\prime},\mathbb{Y})\cdot\mathbb{P}(\mathbb{Y}|\mathbb{X},\mathbb{Z})$ [10][13] 训练优化 - 关系正则化强制变换特征相似性与文字指令相似性一致使用MSE损失函数降低无关视觉特征干扰 [17] - 消融实验显示分组自注意力使CLIP-Vis指标提升3.12个点结合正则化后总提升达3.43个点 [22] 性能表现基准测试 - 在in-distribution设定下 CLIP-Vis指标达32.39 较次优PromptDiffusion提升4.7个点在out-of-distribution设定下保持28.23 [20] - 可视化对比显示模型能准确实现"汽车变兰博基尼"等复杂编辑保留输入图片结构同时注入新特征 [19][23] 扩展性分析 - 示例图片数量从1组增至5组时 CLIP-Dir指标提升15% 多样性增加可使指标额外提升8% [24][25] - 单独使用文字指令或视觉示例时性能下降明显 CLIP-Vis指标分别降低4.37和9.43个点 [23]

Artificial Intelligence

Artificial Intelligence

InstaManip

低成本下的高性能模型，是悖论还是可能？

机器之心· 2025-06-01 01:15

低成本下的高性能模型 - 用户感知的模型性能下降现象普遍存在，表现为逻辑减弱、错误响应增多等问题，引发对AI公司有意降低模型性能以节省成本的质疑[2] - DeepSeek-R1满血版需要四台8卡一体机支持，硬件成本高达六七百万元，部分厂商采用蒸馏版或量化至4比特参数以降低成本，导致推理能力下降[3][4] - 满血版DeepSeek-R1参数达6710亿，FP8精度需8卡A100一体机运行，但量化至4比特后性能显著降低，用户质疑服务真实性[4] - 行业测算显示，满血版DeepSeek-R1服务每月机器成本4.5亿元，按现行收费标准亏损4亿元，采用AMD芯片方案仍亏损超2亿元[4] - 市场竞争加剧促使大厂采用低价免费策略，MaaS模式普遍亏损，厂商被迫通过模型蒸馏、量化等技术手段降低成本[5][6] 模型降本技术路径 - 行业普遍采用模型量化（如16位转8位）、剪枝和知识蒸馏等技术降低计算复杂度与内存占用，但可能引入误差导致输出精度下降[6] - 低成本方案中高端用户难以获取真正满血版模型，免费或低价服务多采用简化版或蒸馏版模型以平衡成本[6] - 量化通过降低权重数值精度减少硬件需求，但精度损失与性能下降形成核心矛盾[6] 行业竞争与成本压力 - 互联网大厂宣称接入相同满血版模型，但实际服务体验存在显著差异，反映成本控制策略分化[2] - 潞晨科技指出DeepSeek模型高昂成本使服务商利润空间趋零，部分厂商通过降低精度实现扭亏为盈[4] - 低价竞争环境下，厂商需持续探索非精度换性能的替代方案以维持运营[5]

Artificial Intelligence

Artificial Intelligence

DeepSeek-R1

OpenAI未公开的o3「用图思考」技术，被小红书、西安交大尝试实现了

机器之心· 2025-05-31 14:30

多模态推理模型技术突破 - OpenAI推出的o3推理模型首次实现将图像直接融入推理过程，具备"用图思考"能力，在V* Bench基准测试中准确率达95.7%[1] - o3模型可自动聚焦图像关键区域（如物理试卷公式区、建筑图纸承重结构），结合知识库进行深度推理[1] - 小红书团队联合西安交通大学开发DeepEyes模型，通过端到端强化学习实现类似o3的"图像思考"能力，并开源技术细节[1] 多模态推理方法对比 - 传统"先看后想"方法存在局限：推理阶段无法回看图像补充细节，易导致理解偏差[4] - 更有效的"边看边想"方法允许动态调用图像信息，实现视觉与语言交替交互，提升多模态理解能力[4] - DeepEyes展示完整的三步推理流程：全局视觉分析→智能工具调用→细节推理识别，无需依赖外部OCR工具[7][8][9][10] DeepEyes模型架构与训练 - 引入"自驱动视觉聚焦"机制：根据文本推理需求动态裁剪关键图像区域进行深入分析[14] - 采用端到端强化学习策略，不依赖监督微调(SFT)，通过outcome-based奖励函数激发原生能力[18][19] - 训练过程经历懵懂期（随机尝试）、探索期（频繁调用工具）、成熟期（精准预判关键区域）三阶段[21] 性能表现与优势 - 在V* Bench取得90.1准确率，HR-Bench超越现有工作流方法，7B版本视觉搜索表现优于Qwen-VL 32B[23] - 五大独特优势：训练更简洁（仅需问答对）、更强泛化能力、端到端联合优化、深度多模态融合、原生工具调用能力[26][27][28] - 数学推理能力显著提升，展示多模态模型跨任务潜力[24] 行业影响 - 开创多模态推理新范式：无需复杂工作流或大规模监督数据，通过强化学习实现视觉-文本深度融合[29] - 技术突破使"图像思考"不再是OpenAI专属，为开放世界多模态智能探索提供新路径[1][29] - 研究团队来自小红书和西安交通大学，成果已在实习期间完成并开源[31]

多模态模型

用图像思考

Artificial Intelligence

Artificial Intelligence

o3推理模型

DeepEyes

从性能到实战，怎样才算是靠谱的 Agent 产品？

机器之心· 2025-05-31 14:30

基准测试关注AI业务能力 - 红杉中国团队提出AI基准测试工具Xbench，强调不再单纯追求测评问题难度，而是重点量化AI系统在真实场景的效用价值[1] - Xbench项目于2022年启动，最初为内部工具，经历三次更新后于2025年5月公开[5] - 2023年首批题库针对LLM和智能体的简单问答和逻辑思考能力[5] - 2024年10月第二次更新，关注LLM的复杂问答、推理能力及简单工具调用[5] - 2025年3月第三次升级，开始思考模型能力与AI实际经济价值的关联[6] 双轨评估体系设计 - Xbench构建双轨评估体系：AGI Tracking评估技术能力上限，Profession Aligned量化真实场景效用价值[8] - AGI Tracking线包含科学问题解答测评集(xbench-ScienceQA)和中文互联网深度搜索测评集(xbench-DeepSearch)[9] - Profession Aligned线提出面向招聘和营销领域的垂类Agent评测框架[9] - 评估任务由领域专家设定业务需求，大学教授转化为评估指标，确保基准与生产力价值强相关[7] 首期测试结果分析 - OpenAI的o3模型在所有测试中排名第一，GPT-4o因回答较短得分最低[9] - 模型尺寸非决定性因素，谷歌DeepMind的Gemini-2.5-Pro和Gemini-2.5-Flash表现相当[9] - DeepSeek R1在数学和代码测试出色，但搜索中心任务适应性不足导致整体表现较低[9] 长青评估机制 - 长青评估机制为动态更新系统，避免静态评估集题目泄露导致过拟合[10] - Agent产品迭代速率快且外部环境动态变化，需定期测评主流产品[10] - 计划在人力资源、市场营销、金融等领域构建动态评估机制[10]

SSM+扩散模型，竟造出一种全新的「视频世界模型」

机器之心· 2025-05-31 12:00

研究背景与核心创新 - 研究结合状态空间模型(SSM)、扩散模型和世界模型等前沿技术，开发出新型视频世界模型，实现长期记忆与空间一致性的平衡 [1][9] - 传统视频扩散模型受限于注意力机制，难以维持长期一致性，导致环境模拟失真 [3][4][6] - 创新点在于采用Mamba的逐块扫描方案，配合局部注意力机制，显著提升长期记忆能力同时保持计算效率 [9][15][16] 技术架构设计 - 采用空间主/时间次的token排序方式，确保因果约束并防止未来信息泄露 [11] - 提出逐块重新排序方法：将token序列分解为(b_h,b_w,T)块，通过调整块大小平衡时间相关性与空间一致性 [13][15] - 引入帧局部注意力模块，采用窗口大小为k的因果注意力机制增强短期一致性 [16] - 动作条件处理：通过MLP处理连续动作值，直接学习离散动作嵌入实现交互控制 [17] 训练与推理优化 - 改进训练方案：保持随机长度前缀完全无噪声，强制模型学习长期依赖性 [18] - 推理阶段仅需维护前k帧KV缓存和块SSM状态，实现恒定内存占用和生成速度 [21] - 训练成本随上下文长度线性增长，显著优于传统二次复杂度模型 [39] 实验性能表现 Memory Maze数据集 - 检索任务(400帧)：SSIM达0.898，显著优于Mamba2(0.747)和因果Transformer(0.829) [25] - 推理任务(224帧)：SSIM达0.855，优于所有次二次模型 [26] - 长期记忆能力与全上下文因果Transformer(SSIM 0.914)接近 [25][27] TECO Minecraft数据集 - 推理任务(50帧)：SSIM达0.454，优于DFoT(0.450)和25帧上下文因果Transformer(0.417) [33] - 能准确预测已探索区域，而有限上下文模型失效 [36] 效率优势 - 训练时间线性扩展，推理保持恒定内存和计算成本 [39] - 单次前向传递速度显著快于全注意力机制 [39]

从打分器到思考者：RM-R1用推理重塑模型价值判断

机器之心· 2025-05-31 12:00

核心观点 - RM-R1框架将奖励建模重新定义为推理任务，提出推理奖励模型（ReasRMs），通过生成结构化评估标准和推理过程提升模型可解释性和性能[1][5] - 实验验证推理能力是奖励模型关键要素，两阶段训练范式（推理蒸馏+强化学习）展现出高效性，链式评估准则（CoR）机制带来深度可解释性与卓越性能[33][34][35] - RM-R1在多个基准测试中超越更大规模的开源和闭源模型，性能提升高达8.7%，证明推理能力比模型规模更重要[25][26] 技术架构 - 引入链式评估准则（CoR）机制，将任务动态分类为推理型或对话型，分别采用内部专家解决方案或定制化评估准则进行多维度判断[9][10][11][12] - 推理型任务要求模型先自行生成解决方案作为基准，对话型任务则生成带权重的评估准则和理由，实现类似人类的复杂偏好判断[11][12] - CoR机制通过预定义逻辑序列、任务特定评估和透明推理痕迹，实现深度元推理能力[13] 训练方法 - 采用两阶段训练流程：推理蒸馏阶段从高质量推理链提取知识，强化学习阶段用可验证奖励信号优化推理能力[17][18][19] - 消融研究表明推理蒸馏是关键因素，单独的强化学习无法弥补性能差距，CoR提示工程显著优化推理过程[30] - 仅需8.7K蒸馏示例即可达到与800K示例训练模型相当的性能，展现卓越数据效率[31] 性能表现 - RM-R1-DeepSeek-Distilled-Qwen-32B在数学和代码任务中准确率分别达91.8%和74.1%，远超此前最佳表现（数学73%，代码63%）[26] - 模型规模与性能呈线性关系，32B版本在多个基准平均表现达81.5%，超越INF-ORM-Llama3.1-70B和GPT-4o等大模型[25][26] - 在RM-Bench推理密集型基准上，14B版本性能达79.6%，32B版本提升至81.5%，显示计算预算增加对推理能力的积极影响[26][29] 行业意义 - 开创基于推理的可解释奖励范式，为大模型对齐研究提供新方向，强调认知能力提升比规模扩张更重要[32][34] - 结构化推理方法使模型能处理复杂场景判断，在安全、数学等专业领域展现突破性进展[8][26] - 小模型高效训练路径为资源有限团队提供实际部署方案，具有显著经济优势[31][35]

250美元起售，还开源，Hugging Face 发布史上最亲民人形机器人

机器之心· 2025-05-31 12:00

开源机器人发布 - Hugging Face开源两款人形机器人HopeJR和Reachy Mini，推动马斯克2040年百亿机器人预言实现[1] - HopeJR为全尺寸人形机器人，具备66个驱动自由度，可行走和手臂移动[3] - Reachy Mini是桌面机器人，可移动头部、说话、倾听，用于AI应用测试[5] 产品定价与供应 - HopeJR售价约3000美元，Reachy Mini售价250-300美元，显著低于宇树G1的16000美元[7] - 首批机器人预计2024年底发货，已开放等候名单[7] - 两款机器人均提供完整物料清单和零件采购链接[16][21] 技术细节与功能 - HopeJR需手动录制动作数据，通过模仿学习算法训练自主控制策略[10] - 目前HopeJR仅在3D模拟环境行走，计划向现实世界转移[12] - HopeJR配备机械臂，可通过专用手套远程控制执行握手、指向等任务[13] 设计特点与用户反馈 - HopeJR设计粗糙，头部框架结构类似动画角色班德[9] - 网友评价HopeJR动作像患帕金森症，外观不太聪明[8][14] - Reachy Mini采用可伸缩颈部设计，基于Pollen Robotics的Orbita执行器技术[17][18] 应用场景与生态建设 - Reachy Mini可用于工业自动化AI模型测试，如人机交互场景[20] - Reachy 2已展示多语言理解能力，集成GPT-4实现带情绪响应[23][24] - Hugging Face构建开源机器人生态，包括LeRobot项目和SO-100机械臂[26][28] 行业影响与开源价值 - 开源模式打破技术壁垒，使机器人技术不再被大公司垄断[7][28] - 开源硬件平台有望像开源软件一样推动行业加速发展[30] - 社区共同塑造的"公共智慧"将成为机器人进化新范式[30]

具身进化·无界未来：这场论坛引领具身智能模型革命新浪潮

机器之心· 2025-05-30 17:33

具身智能技术发展 - 具身AI模型与人形机器人结合为AGI进入物理世界提供新可能，多模态大模型和世界模型推动具身智能进化 [1] - 新型大物理模型（如CoA行动链）在泛化性、端到端训练和统一大小脑功能上优于传统思维链（CoT），并已开发世界模型、仿真平台等工具 [6] - 脉冲神经网络实现机械臂类脑仿生控制，通过仿生算法和计算神经结构达成复杂环境下的自适应与灵巧操作 [10] 产业应用与商业化路径 - 智能机器人需满足V（感知）-L（理解）-A（行动）闭环，产品化需聚焦用户场景划分、技术交叉点及低失效成本场景 [8] - 视觉大模型（VLM）通过开源强化学习框架提升机器人环境感知与决策能力，联汇科技展示VLM-R1框架及终端联动案例 [12] - 模块化关节设计颠覆传统机器人开发，星际光年开源方案使灵巧手成本与周期显著降低 [12] 行业生态与未来展望 - 张江依托"一中心、两基地"布局推动人形机器人产业加速，集聚科研资源完善政策环境 [4] - 世界模型和Scaling Law被视为具身智能算法潜力方向，生成式AI可缩小虚拟与现实差距 [13] - 工业搬运、商超展厅为优先落地场景，预计5-10年内或进入C端家庭市场 [13] - 合成数据可百倍放大真实数据价值，解决训练数据稀缺问题，仿真数据在泛化性和采集效率上优势显著 [14]