人工智能学术研究进展 - 小米公司团队在人工智能领域的多篇最新研究成果成功入选国际顶级会议ICLR 2026,研究方向涵盖多模态推理、强化学习、GUI Agent、端到端自动驾驶以及音频生成等多个前沿领域 [1] 强化学习效率优化框架 - 针对多模态大语言模型强化学习训练中存在的“优势坍缩”和“轨迹沉默”现象导致的效率低下问题,公司提出了名为Shuffle-R1的高效强化学习框架 [3] - Shuffle-R1框架包含两项核心设计:成对轨迹采样以提高梯度信号质量,以及基于优势的批次重排序以增加有价值轨迹的曝光率 [4] - 实验结果表明,Shuffle-R1在增加极少计算开销的前提下,在多个多模态推理基准上稳定超越了多种强化学习基线方法 [4] 移动GUI Agent过程监督框架 - 针对Mobile GUI Agent在真实落地中面临的高质量思考轨迹稀缺和中间推理步骤监督成本高的瓶颈,公司提出了MobileIPL迭代偏好学习框架 [7] - MobileIPL包含Thinking-level DPO和Instruction Evolution三阶段指令演化机制,旨在以高效、可扩展的方式实现对模型思考过程的监督与优化 [8] - 该框架在AITZ、AMEX、AndroidControl等主流GUI-Agent基准测试中取得了SOTA(最先进水平),并在分布外场景中展现出更强的泛化鲁棒性与稳定性 [8] 小语言模型推理能力增强框架 - 为解决小语言模型在复杂推理和检索任务中性能受限的问题,公司提出了名为FutureMind的模块化推理框架,该框架无需额外训练和增加参数 [12] - FutureMind通过自适应知识蒸馏从大型语言模型中提炼高级认知能力,构建了由问题分析、逻辑推理、策略规划与检索指导模块组成的动态推理流水线,并辅以三种不同的检索范式 [12] - 在多跳问答基准测试上,FutureMind超越了如Search-o1等多项强基线模型,在不同模型架构和规模下均在无需额外训练的前提下实现了SOTA水平 [13] 全模态推理能力迁移框架 - 针对全模态大模型“感知强、推理弱”以及通过训练提升推理能力成本高昂的挑战,公司提出了名为ThinkOmni的Training-free(免训练)框架 [16] - ThinkOmni框架旨在将成熟的文本推理能力“零成本迁移”至全模态场景,核心组件包括利用现成的推理大模型进行指导的解码过程以及自适应平衡感知与推理信号的策略 [16][17] - 该框架在六个多模态推理基准上均展现出一致的性能提升 [17] 移动Agent评估基准 - 公司推出了名为SMAN-Bench的跨系统、多维度移动Agent评估基准,以解决现有评测中在线环境不稳定与离线轨迹过于单一的对立难题 [20] - 该基准基于大规模图结构语料Mobile3M构建,首创了基于槽位的指令生成方法,并引入了真实广告噪声与交互式模糊指令,以构建高保真的移动操作模拟环境 [20] - SMAN-Bench为量化评估多模态大模型在复杂长程任务中的规划能力、抗干扰鲁棒性及主动交互智能提供了实验平台 [20] 高效音频生成框架 - 针对现有音频生成方法中GAN收敛缓慢和扩散类方法推理计算开销大的问题,公司提出了名为Flow2GAN的两阶段音频生成框架 [23] 1. 该框架首先利用改进的Flow Matching预训练学习生成能力,随后通过轻量GAN微调实现高效的少步乃至单步推理 [24] 2. 改进包括将目标函数重构为端点估计以避免优化困难,以及引入基于谱能量的损失缩放策略以强化对低能量区域的建模 [24] 3. 此外,设计了一种多分支网络结构在不同时间-频率分辨率下建模,提升了音频建模能力 [24] - 实验结果表明,Flow2GAN能够从Mel频谱或离散音频token中生成高保真音频,在生成质量与计算效率的权衡上优于现有最先进的GAN及Flow Matching方法 [24]
雷军官宣小米多篇最新研究成果成功入选ICLR 2026国际顶级会议