在线强化学习 - 财报，业绩电话会，研报，新闻

在线强化学习

搜索文档

机器之心· 2025-09-21 13:26

文章核心观点 - 明略科技推出的专有GUI大模型Mano在行业公认的Mind2Web和OSWorld两大基准测试中均取得创纪录的SOTA成绩，为GUI智能体领域提供了可扩展、可持续进化的新范式 [1][7][14] - Mano模型通过在线强化学习和训练数据自动采集两大核心创新，实现了在复杂图形用户界面交互性能上的重大突破 [23][32][48] - 该技术突破使Mano能够高效执行网页操作与数据采集任务，为企业智能化转型提供支持，并成为公司在AI Agent领域差异化竞争的关键 [63][64][66] 技术性能表现 Mind2Web基准测试表现 - 在Mind2Web基准测试中，Mano-7B模型在元素精度(Ele.Acc)指标上达到80.8%，在步骤成功率(Step SR)指标上达到73.9%，显著超越所有SOTA方法 [17][18] - Mind2Web覆盖137个网站、2350+真实任务，涵盖填写表格、订机票、在线购物等复杂操作场景 [15] - 在跨任务、跨网站、跨领域三个关键维度上，Mano-7B均表现优异，特别是在跨网站场景中步骤成功率达到68.3% [17] OSWorld基准测试表现 - 在OSWorld-Verified榜单的Foundation E2E GUI & Specialized Model评测中，Mano取得40.1%的成功率，仅在一次运行中就刷新纪录 [2][10] - OSWorld涵盖369个跨应用任务，覆盖10类应用，包括浏览器和办公软件，被认为是桌面智能体测评的"珠峰" [18][20] - 在Max Steps=100配置下，Mano经过2次运行后平均成功率提升至41.6±0.7%，较UI-TARS-7B的27.4±2.2%提升约7个百分点 [19][21] 技术创新突破在线强化学习技术 - Mano在GUI交互领域首次提出在线强化学习训练范式，构建了GUI领域强化学习的新范式 [23][32] - 技术团队建立模拟环境池，让模型与真实环境交互，包括浏览器环境(BUA)和桌面环境(CUA) [37] - 采用在线采样+离线过滤的方式，先收集轨迹再过滤噪声数据，动态调节任务难度分布，避免学习效率低下问题 [40] - 消融实验显示，增加在线强化学习步骤后，模型在OSWorld数据集上的平均分数从33.7提升至41.6，提升7.9个点 [44][45] 训练数据自动采集 - 技术团队设计了训练数据自动采集方法，搭建可扩展的虚拟环境集群模拟多种交互场景 [49] - 为网页环境定制Chrome插件"Mano-C"，全面提取网页中的交互元素，捕捉空间坐标与语义属性 [50] - 采用深度优先搜索(DFS)策略进行探索，最大深度设为10层，在探索覆盖率和计算效率间取得平衡 [53] - 利用大语言模型为每个提取元素生成语义标签、功能描述及交互类别，形成结构化语义对齐数据 [51] 行业应用价值 - GUI智能体市场热度高涨，在2025外滩大会和财新亚洲愿景论坛上成为最高频热词 [4] - 真正有用的Agent必须学会使用手机和电脑，像人一样读懂并操作GUI界面 [4][7] - Mano作为差异化竞争关键角色，能够访问其他同类Agent无法触及的数据源，如需要手动登录设置条件才能获取的专业网站数据 [61][63] - 该技术能够大幅降低传统自动化方案在应对业务变更时的适配与维护成本 [66]

首次！流匹配模型引入GRPO，GenEval几近满分，组合生图能力远超GPT-4o

机器之心· 2025-05-13 15:08

核心观点 - 流匹配模型在复杂场景和文本渲染任务中存在困难，在线强化学习在图像生成领域应用仍处于初步阶段 [1] - Flow-GRPO 是首个将在线强化学习引入流匹配模型的工作，显著提升模型性能 [2] - Flow-GRPO 通过 ODE-SDE 等价转换和去噪步数减负两项关键策略提升训练效率 [6][8] - Flow-GRPO 在 GenEval 基准测试中准确率从 63% 提升到 95%，超越 GPT-4o [14] - Flow-GRPO 为流匹配模型在可控性、组合性和推理能力方面开辟了新范式 [23] 核心思路与框架概览 - ODE-SDE 等价转换：将确定性 ODE 转换为随机 SDE，为 RL 提供探索空间 [8][9] - 去噪步数减负：训练时减少生成步数（40 步减到 10 步），推理时保持完整步数，提升训练效率 [8][12] 核心实验效果 - 复杂组合生成能力大幅提升：GenEval 基准上 SD3.5-M 准确率从 63% 提升至 95% [14] - 文字渲染精准无误：视觉文本渲染准确率从 59% 提升至 92% [19] - 人类偏好对齐任务取得显著进步，图像质量和多样性未受影响 [21] 总结与展望 - Flow-GRPO 揭示了利用在线强化学习持续提升流匹配模型性能的可行路径 [23] - 为图像、视频、3D 等多模态生成任务提供了新范式 [23]

流匹配模型

在线强化学习

Artificial Intelligence

Artificial Intelligence