强化学习（RL） - 财报，业绩电话会，研报，新闻 - Reportify

强化学习（RL）

搜索文档

对话陈锴杰：做你的Personal Agent，更要做你的“高情商Agent”｜NEXTA创新夜谈

36氪· 2025-11-19 15:33

我们正处在一个与AI日常对话的时代，但这些强大的模型似乎总是患有"健忘症"。每一次新的对话，我们都不得不重复描述任务、背景和我们的需求。我们期待一个能真正记住"我是谁"，理解"我在干嘛"，甚至感知我们情绪与处境的AI。当AI能做到这一点，它将不再是冷冰冰的工具，而是我们真正的数字伙伴。正是在这个背景下，连续创业者、马卡龙AI创始人陈锴杰，正在探索这个问题的答案。他创立的马卡龙AI，并非又一个聊天机器人，而是一个致力于成为"Personal Agent"（个人智能体）的全新物种。技术背景的转变是这一切的起点。陈锴杰指出，AI行业正从单纯依靠增加参数和数据的"规模定律"（Scaling Law）时代，迈向"经验时代"（Era of Experience）。当互联网上的高质量数据被消耗殆尽，模型的智能提升遇到了瓶颈。未来，智能系统的竞争力将不再由规模参数决定，而是取决于其从真实用户经验中持续学习和进化的能力。这一理念的核心是强化学习（RL）。陈锴杰用一个生动的比喻解释了其本质：看十小时网球视频，远不如亲自拿起球拍挥动一次学得快。每一次真实的互动，都为模型提供了蕴含因果关系的高质量数据，让它知 ...

经验时代（Era of Experience）

强化学习（RL）

规模定律（Scaling Law）

Artificial Intelligence

经验时代（Era of Experience）

强化学习（RL）

规模定律（Scaling Law）

Artificial Intelligence

清华团队：1.5B 模型新基线！用「最笨」的 RL 配方达到顶尖性能

机器之心· 2025-11-13 07:51

研究背景与行业现状 - 2025年初DeepSeek-R1开源后，如何用强化学习训练1.5B级别的小型数学推理模型成为热门研究方向，该领域经历了快速的技术演进[6] - 行业技术发展路径从早期的超参数调优和长度控制，演进到多阶段渐进训练、课程学习以及将rollout数量提升到512次的暴力探索方法[6] - 近期工作普遍采用动态采样、KL重置、自适应惩罚、长度控制等复杂稳定技术和优化技巧，导致整个训练流程变得越来越复杂[7] 清华团队JustRL方法创新 - 采用极简训练配方：使用标准GRPO算法、单阶段训练、固定超参数、常规数学问题集，避免数据筛选和动态采样等复杂技术[11] - 同一套超参数在两个不同起点模型上均有效：弱基座DeepSeek-R1-Distill-Qwen-1.5B和强基座OpenMath-Nemotron-1.5B[11] - 在9个数学推理基准上的全面评测显示，JustRL达到了1.5B模型的最高水平[11] 性能与效率表现 - JustRL-DeepSeek-1.5B在9项基准上平均准确率达到54.87%，超越采用9阶段训练的ProRL-V2的53.08%[13][14] - 计算效率显著提升：总token预算约为1.4E+11，仅为ProRL-V2的一半，为BroRL的五分之一[14] - JustRL-Nemotron-1.5B平均准确率达到64.32%，略微超过使用课程学习的QuestA的63.81%，且不需要额外的数据工程[14] 训练稳定性发现 - 4000步RL训练过程异常平稳：策略熵在1.2-1.4范围内健康震荡，平均奖励从-0.6单调上升到+0.4，响应长度自然压缩到4000-5000 tokens[17] - 训练在32张A800-80GB GPU上进行约15天，工程复杂度和计算开销显著低于多阶段训练方法[15] - 与现有工作报告的训练困难形成鲜明对比，表明在足够简单的配置和充分训练规模下，稳定性问题可能不易发生[19] 技术优化实验启示 - 加入显式长度惩罚反而使性能从55%下降到50%，导致熵值从1.2-1.4降到0.4-0.6，探索空间被过早压缩[21] - 换用更宽松的验证器使性能继续下滑到45%，可能降低了学习信号的细粒度或消除了模型发展鲁棒推理的压力[21] - 消融实验显示技术差异在接近2000步尺度才开始显现，意味着小规模实验结论可能不适用于大规模扩展场景[24] 行业方法论启示 - 技术的价值高度依赖于baseline特性，在稳定baseline上某些"优化"可能适得其反[27] - 建立清晰的简单baseline能更准确地评估复杂技术的价值，应先验证简单方法的极限再决定是否需要复杂度[27] - 行业可能低估了简单方法在充分扩展下的潜力，奥卡姆剃刀原则"如无必要，勿增实体"具有重要参考价值[26][31]

强化学习（RL）

大语言模型（LLM）

奥卡姆剃刀

强化学习（RL）

大语言模型（LLM）

奥卡姆剃刀

ICCV 2025 Highlight | 大规模具身仿真平台UnrealZoo

机器之心· 2025-11-12 01:11

核心观点 - 联合研究团队推出了基于虚幻引擎的高保真具身智能仿真平台UnrealZoo，旨在解决现有模拟器场景单一、真实性不足的问题，为复杂开放世界中的AI训练提供支持 [2] - 该平台包含超过100个高质量3D场景和66个可自定义操控的实体，提供优化的编程接口和工具链，显著提升了仿真效率与易用性 [5][7][15] - 实验证明环境多样性对智能体泛化能力至关重要，同时揭示了当前基于强化学习和大模型的智能体在复杂3D空间推理中的局限性 [50][55][58] 平台概述与定位 - UnrealZoo是一个基于虚幻引擎UE5开发的高保真虚拟环境集合，包含100余个场景地图和66个可自定义操控的具身实体 [5] - 平台被ICCV 2025接收并入选Highlight Award，本届共有280篇论文入选，占录用论文总数的10% [2] - 旨在弥补现有模拟器如Habitat、AI-Thor和Carla等在场景多样性和开放性方面的短板，推动具身智能体在多变环境中的适应能力发展 [8] 场景与实体多样性 - 平台收录100多个高质量3D场景，涵盖住宅、超市、火车站、工厂、城市、乡村、寺庙及自然景观等多种风格，最大场景达16平方公里 [13][16] - 提供人类、动物、汽车、摩托车、无人机、移动机器人和飞行相机等七种类型共66个实体，各具不同的动作空间和视点 [24] - 与主流虚拟环境相比，UnrealZoo在场景类别、规模、风格和实体多样性方面具有显著优势，支持古代、现代、科幻等多种风格 [12] 技术特性与系统功能 - 运动系统基于Smart Locomotion，支持智能体在复杂三维空间中进行跑步、跳跃、攀爬等基础移动能力 [31] - 内置基于NavMesh的自主导航系统，支持智能路径规划和避障；交互系统支持物体拿放、碰撞、上下车、开关门等丰富物理交互 [33][34][36][38][40] - 支持多智能体之间的合作与对抗交互，为研究社会智能行为如合作、竞争与沟通提供平台 [41] 软件接口与性能优化 - 提供一套易用的Python API和工具（UnrealCV+），包括环境增强、演示收集和分布式训练/测试功能 [15][42] - UnrealCV+优化了渲染管道和通信协议，帧率（FPS）显著提升：物体级分割图性能提升120%，深度图提升86%，多智能体交互（N=10）提升100% [45][46] - 开发基于Gym接口的高级Python API，简化环境交互，使初学者也能轻松使用和定制环境 [44][46] 实验验证与应用潜力 - 视觉导航实验中，在线RL智能体在需要立体空间感知的复杂环境中表现优于GPT-4o，但与人类玩家存在显著差距 [47][50] - 主动视觉跟踪实验表明，随着训练环境数量从1个增加到8个，智能体的泛化能力显著提升，尤其在野外环境中成功率提高明显 [55][58] - 在动态干扰测试中，RL方法在0D、4D、10D干扰设置下均保持较高成功率（0.76/0.68/0.56），显著优于PID、GPT-4o和OpenVLA等方法 [60][61] - 控制频率实验显示，当感知-控制循环频率低于10 FPS时性能显著下降，30 FPS时成功率可达0.92，凸显高效模型的重要性 [62]

具身智能（Embodied AI）

强化学习（RL）

大型视觉 - 语言模型（VLM）

虚幻引擎（Unreal Engine）

虚幻计算机视觉（UnrealCV）

具身智能（Embodied AI）

强化学习（RL）

大型视觉 - 语言模型（VLM）

虚幻引擎（Unreal Engine）

虚幻计算机视觉（UnrealCV）

比NanoBanana更擅长中文和细节控制！兔展&北大Uniworld V2刷新SOTA

量子位· 2025-11-05 13:39

模型性能与竞争优势 - 新一代图像编辑模型UniWorld-V2在GEdit-Bench基准测试中获得7.83分，显著优于GPT-Image-1的7.53分和Gemini 2.0的6.32分 [24] - 在ImgEdit基准测试中以4.49分领先，超越了所有已知的开源和闭源模型 [24] - 相比Nano Banana等模型，能更精准理解中文指令意图并完美执行复杂图像编辑任务 [1][4][6] 核心技术框架 - 创新性提出UniWorld-R1框架，是业内首个将强化学习策略优化应用于统一架构图像编辑模型的视觉强化学习框架 [8][19] - 采用Diffusion Negative-aware Finetuning技术，实现无需似然估计的高效策略优化 [19] - 开创性使用多模态大语言模型作为免训练的通用奖励模型，利用其输出logits提供精细化隐式反馈 [19] 功能应用特点 - 具备强大的中文字体掌握能力，能精准渲染如“月满中秋”等笔画复杂的艺术字体 [11] - 支持精细化空间可控编辑，用户可通过画红框指定区域，模型能严格执行如“将鸟移出红框”等指令 [14] - 拥有全局光影融合能力，可深刻理解“给场景重新打光”等指令，使物体自然融入场景且光影融合度极高 [15] 行业影响与模型泛化能力 - 该方法显著提升了基础模型性能，使FLUX.1-Kontext在ImgEdit基准分数从3.71上升到4.02，超越其Pro版本的4.00分 [25] - 在域外GEdit-Bench测试中展现出强大泛化能力，使FLUX.1-Kontext总分从6.00提升至6.74，超越Pro版本的6.56分 [26] - 人工偏好研究显示，用户在所有标准中更倾向于选择经过该方法微调的模型，证实其能有效引导模型生成更符合人类偏好的输出 [27]

视觉强化学习

强化学习（RL）

视觉强化学习

强化学习（RL）

最火VLA，看这一篇综述就够了

36氪· 2025-10-31 16:22

文章核心观点 - 视觉-语言-动作模型成为ICLR 2026的热点领域，相关投稿量从去年的个位数飙升至164篇，增长18倍[5] - VLA的核心是让机器人具备“听懂人话、看懂世界、动手干活”的能力，正成为AI领域极具吸引力的前沿阵地[5] - 学术界对VLA的定义趋于明确：必须使用经过大规模、互联网级别视觉-语言数据预训练的骨干模型，代表模型包括Google的PaLI-X及开源项目Llava、Florence-2等[5] VLA概念界定与区分 - VLA强调模型“基因”，必须继承自强大的视觉语言模型，具备通过图文预训练习得的语言理解、视觉泛化和任务迁移能力[5] - 与“多模态策略”区分：简单拼接独立视觉编码器和文本编码器的模型不应称为VLA[6] - 与大型行为模型区分：LBM强调在“大规模、多任务的机器人演示数据”上训练，而VLA强调预训练骨干；一个在机器人数据上微调的VLA可同时是LBM，但LBM不一定是VLA[6] VLA架构创新趋势 - 离散扩散模型成为新范式，可并行生成整个动作序列，减少前向传播次数，提高推理效率，在LIBERO评测中表现近乎饱和[7][10] - 动作分词器技术进展包括FASTer Tokenizer结合残差矢量量化，以及OmniSAT借助B样条曲线对动作建模，提升精度与稳定性[14][16][21] - 效率优化方法如HyperVLA采用超网络机制提升推理效率，AutoQVLA采用智能量化压缩模型体积，大幅降低硬件门槛[19][21] 机器人推理与学习能力提升 - 具身思维链模式让机器人先生成中间推理步骤再行动，增强计划与解释能力，在复杂场景中显著提升泛化能力[11] - 强化学习作为微调利器重新登场，代表作在LIBERO和SIMPLER上分别取得99%和98%的成功率[17][18] - 视频预测技术赋予VLA物理直觉，通过增加未来帧预测任务或微调视频生成大模型来提升对物理世界的理解[20][23] 评测基准与通用化挑战 - 新评测基准如《RoboCasa365》提供365种任务和超2000个厨房场景，《WorldGym》提出用生成式世界模型作为评测环境，推动研究走向更有意义的泛化能力[24][26] - 主流仿真评测存在“性能天花板”问题，模型仿真得分高但难以转化为现实能力，原因包括数据鸿沟、评测维度差异和资源迭代差距[30][34] - 通用化架构创新包括《X-VLA》使用软提示学习特定“适配器”，《XR-1》提出统一视觉-运动编码，《HIMOE-VLA》采用层级式混合专家架构以适应不同机器人硬件[27][29][34] 未来研究方向 - 数据质量重要性超过数据量，数据中的噪声、歧义和次优行为可能限制模型上限[31] - 上下文学习机制能否迁移到机器人领域，被认为是通用VLA的潜在突破口[31]

视觉 - 语言 - 动作（VLA）

大型行为模型（LBMs）

具身思维链（ECoT）

强化学习（RL）

Artificial Intelligence

VLA（Vision-Language-Action）

视觉 - 语言 - 动作（VLA）

大型行为模型（LBMs）

具身思维链（ECoT）

强化学习（RL）

Artificial Intelligence

VLA（Vision-Language-Action）

英伟达可能要给这个 AI Coding 投 10 亿美金，AI 提升电商交易每月增长 100% 的一个典型案例

投资实习所· 2025-10-31 13:21

Poolside公司概况与定位 - 公司由GitHub前CTO Jason Warner创立，定位为基础模型公司，而非简单的AI编程产品[1] - 公司将OpenAI视为唯一竞争对手，目标是通过软件开发路径实现AGI（通用人工智能）[1] - 2024年10月完成5亿美元新一轮融资，英伟达参与投资，估值达30亿美元[2] Poolside的战略愿景与技术路径 - 公司最初产品定位为生成式AI编程平台，通过API和编程助手自动化软件开发流程，主要面向对数据安全有高要求的企业客户[2] - 2025年中期公司战略发生重大转变，从单纯扩大语言模型规模转向通过软件开发实现AGI的更大愿景[6] - 公司认为强化学习（RL）是关键突破路径，能让模型从新经验和真实世界互动中学习，突破传统LLM依赖静态文本数据的瓶颈[7] - 采用基于代码执行反馈的强化学习（RLCEF），比人类反馈（RLHF）更高效、更具可扩展性，能提供清晰客观的正确/错误信号[7] Poolside的AGI理论框架 - 公司将代码视为通往AGI的"语言"，认为软件开发是完美的AGI训练场，提供可验证的奖励机制[7][11] - 提出AGI能源系统比喻："聚变反应堆"代表从现有数据中提取能量，"风力涡轮机"代表利用RL收集新鲜数据的能量[11] - 强调信息密度比单纯文本数量更重要，认为AGI是从有限数据中提炼人类经验学习，而非简单扩大神经网络规模[11] 行业投资动态 - 直播带货平台Whatnot近期完成2.25亿美元融资，估值上涨至116亿美元，显示资本市场对电商平台级产品给予高估值[12] - AI在电商领域出现创新应用，有产品利用AI扫描识物和信息搜索能力，将商品上架流程从耗时较长缩短至几秒钟，实现每月100%左右增长[13]

英伟达(US:NVDA)

强化学习（RL）

Artificial Intelligence

AI Coding 产品

生成式 AI 编程平台

强化学习（RL）

Artificial Intelligence

AI Coding 产品

生成式 AI 编程平台

最火VLA，看这一篇综述就够了

量子位· 2025-10-31 12:09

文章核心观点 - VLA（视觉-语言-动作）领域在ICLR 2026会议上呈现爆发式增长，相关投稿量从去年的个位数飙升至164篇，增长18倍 [5] - 该领域旨在让机器人具备“听懂人话、看懂世界、动手干活”的能力，是AI领域极具吸引力的前沿阵地 [6] - 尽管研究繁荣，但需明确VLA定义并关注其与LBM（大型行为模型）的区别，同时主流评测存在“性能天花板”问题，模型高分难以转化为现实能力 [7][10][11][12][13][43][44] VLA概念定义与区分 - VLA模型必须使用经过大规模、互联网级别视觉-语言数据预训练的骨干，以继承语言理解、视觉泛化和任务迁移能力 [7][8] - 代表模型包括Google的PaLI-X以及开源项目Llava、Florence-2等 [9] - 仅将独立视觉与文本编码器拼接的模型应称为“多模态策略”，而LBM强调必须用海量机器人操作数据训练 [10][11] - 在机器人数据上微调的VLA可视为LBM，但LBM不一定是VLA，这区分了不同技术路线的侧重 [12][13] ICLR 2026 VLA八大技术趋势 - **趋势一：高效架构新范式**：离散扩散模型成为新风向，可并行生成整个动作序列，在LIBERO评测中表现近乎饱和 [14][15][16] - **趋势二：具身思维链（ECoT）**：让机器人生成动作前先产生中间推理步骤，提升计划与解释能力，在复杂场景中泛化能力显著提升 [17][18][19] - **趋势三：动作分词器**：核心难点是将连续高频的机器人动作转换为VLM能理解的离散词汇，新进展如FASTer Tokenizer和OmniSAT提升了精度与稳定性 [21][24][30] - **趋势四：强化学习（RL）**：作为VLA策略的微调利器，代表技术残差RL和阶段感知RL在LIBERO和SIMPLER上分别取得99%和98%的成功率 [25][26][31] - **趋势五：效率优化**：通过推理效率优化（如HyperVLA）和显存占用优化（如AutoQVLA）降低硬件门槛，使VLA研究走向平民化 [27][28][32] - **趋势六：视频预测**：利用视频生成模型对时序动态和物理规律的理解，赋予VLA物理直觉，例如《COSMOS POLICY》将视频基础模型微调用于机器人控制 [29][34][35] - **趋势七：更真实的评测基准**：社区正开发新评测方式以打破对现有测试集的过拟合，如《RoboCasa365》和《WorldGym》 [36][39][46] - **趋势八：跨体态学习**：通过《X-VLA》、《XR-1》、《HIMOE-VLA》等架构创新，让模型能驱动不同结构的机器人，是构建通用机器人策略的关键 [40][42][47] 行业现状与关键问题 - 主流仿真评测（如LIBERO、CALVIN）存在“性能天花板”，开源模型仿真得分高但真实世界表现难匹敌头部公司产品 [43][44] - 工业界与学术界评测维度存在差异，工业界更看重开放环境、泛化能力和失败恢复能力 [48] - 未来两大关键问题包括数据质量（噪声、歧义、次优行为限制模型上限）和上下文学习机制向机器人领域的迁移 [49]

VLA（Vision-Language-Action）

具身思维链（Embodied Chain-of-Thought

动作分词器（Action Tokenizer）

强化学习（RL）

Artificial Intelligence

VLA（Vision-Language-Action）

具身思维链（Embodied Chain-of-Thought

动作分词器（Action Tokenizer）

强化学习（RL）

Artificial Intelligence

最新一篇长达76页的Agentic AI综述

自动驾驶之心· 2025-10-28 08:03

文章核心观点 - Agentic AI正经历从“外部流水线”到“模型原生”的范式迁移，其核心能力（规划、工具使用、记忆）正被内化到模型参数中 [1] - 驱动此范式转变的核心是“LLM + RL + Task”统一框架，通过强化学习将预训练、后训练与推理循环结合，使模型从被动组件转变为可从环境互动中学习的目标驱动体 [1][3] - 未来趋势不仅是更高的自治度，更是模型与环境的深度耦合与共生，标志着从“构建会用智力的系统”走向“通过经验自进化的智能” [1][44] 问题背景 - 当前生成式AI多为“反应式输出”，缺乏面向目标的长期推理与环境交互能力 [3] - 早期智能体系统采用流水线范式，将规划、工具使用、记忆三大核心能力放在外部编排中，导致系统脆弱且难以应对非预期情境 [3] - 新范式强调通过端到端训练将核心能力内化进模型参数，使LLM成为主动决策者，其核心驱动力是大规模强化学习在LLM训练中的应用 [3] 面向LLM的RL - 必须使用结果驱动的RL将规划等能力从提示诱导转为参数内化，以解决程序化数据稀缺和分布外脆弱性问题 [6] - 相比监督微调，RL具备动态探索式采样与相对价值学习两大优势，将模型从“被动模仿者”变为“主动探索者” [7][8] - 预训练LLM自带的世界知识与结构先验可实现先验引导的探索，提高样本效率，而语言接口将状态、动作、奖励统一到文本空间，使RL成为跨任务泛化的通用机制 [9][11] - 算法从早期RLHF演进至GRPO、DAPO等结果驱动RL，以提升长程训练稳定性与效率，形成基础模型提供先验、学习算法通过交互精炼能力的统一范式 [12] 核心能力：规划 - 流水线范式将规划视为自动化推理与行动序列搜索，存在传统符号规划可解释但重建模、提示工程对设计敏感且计算成本高等局限 [14][17] - 模型原生范式通过监督学习与强化学习将规划能力直接内化到参数中，摆脱外部搜索器/评估器，提升开放环境下的灵活性与稳健性 [15] - 实现了两次关键迁移：训练方式从SFT转向RL以缓解高质量过程数据稀缺问题；RL内部从“过程奖励”转向“结果奖励”并结合规则型奖励以稳定优化 [18] 核心能力：工具使用 - 早期系统将模型嵌入固定工作流节点，提示法则将决策逻辑写入提示，但存在计算开销大、依赖评估质量等问题 [21] - 模型原生迁移把工具使用的决策内化到参数中，形成模块化训练（只优化规划器）和端到端训练（统一学习计划与执行）两类路线 [21] - 当前挑战包括长动作序列中的信用分配问题，以及工具超时、返回不一致等环境噪声导致的训练不稳定，趋势是细化奖励（轨迹级转向步级）并在动态真实环境中训练以缩小仿真到现实差距 [22] 核心能力：记忆 - 记忆被视为“面向行动的证据治理”，流程包括写入/存储、管理/压缩、检索、利用四职能 [27] - 短期记忆方面，流水线范式通过滑动窗口、压缩摘要和RAG等技术处理，模型原生范式则通过位置编码外推、长序列合成和注意力优化将长上下文能力端到端化 [27][30] - 长期记忆载体分为外部库（混合索引、重排、去重）和模型参数（持续预训练/蒸馏、定点编辑与轻量注入），趋势是推动短期-长期记忆统一及检索与生成的联合训练 [30] 智能体应用发展路线 - Deep Research智能体充当“大脑”，擅长复杂推理和分析；GUI智能体充当“眼睛和手”，模拟人类与图形环境的交互 [3] - 多智能体协作研究涵盖从基于规则的系统到数据驱动的模型原生方法，代表性算法包括MAGRPO、RLCCF、MATPO等 [40] 未来方向 - 当前研究焦点集中于奖励建模、规划、工具使用、自动化验证/红队测试等领域 [41] - 最终发展轨迹是模型与环境更深入的综合，标志着从构建使用智能的系统到增长智能的系统的转变 [44]

强化学习（RL）

大语言模型（LLM）

模型原生范式

流水线范式

强化学习（RL）

大语言模型（LLM）

模型原生范式

流水线范式

SFT 还是RL，VLA到底应该如何训练？

具身智能之心· 2025-10-28 08:02

研究核心观点 - 聚焦两篇具身强化学习与视觉-语言-动作模型的前沿工作，旨在解决VLA模型泛化能力不足及RL与VLA联合训练效率低下的问题，提出了创新的评测基准与高效训练框架 [2][3][10][15] 第一篇论文研究总结 - 论文系统探讨了强化学习对VLA模型泛化能力的促进作用，针对监督微调导致的误差累积与分布偏移问题，构建了覆盖视觉、语义与执行三大维度的泛化能力评测基准 [2] - 实验结果表明，采用PPO进行RL微调可显著提升语义理解与执行鲁棒性，同时保持与监督微调相当的视觉泛化表现 [2] - 研究发现PPO在VLA场景中整体优于源自大语言模型范式的DPO与GRPO方法，并基于此提出一套高效可复用的PPO训练方案，降低了大规模应用强化学习的门槛 [2] 第二篇论文研究总结 - RLinf-VLA是一个专用于VLA模型大规模强化学习训练的统一高效框架，针对仿训推一体化挑战提出全新解决方案，相比基线方法训练加速高达2.27倍 [3] - 框架通过统一接口无缝支持多种VLA架构、多种强化学习算法以及多种模拟器，其单一模型在130个LIBERO任务上达到了98.11%的成功率 [3] - 该框架还总结了一套将强化学习应用于VLA训练的最佳实践，具有重要的工程应用价值 [3] 研究团队与资源 - 研究团队核心成员来自清华大学交叉信息研究院，在强化学习与机器人学习领域拥有深厚的研究背景 [4][12][14] - 两篇研究论文及相关代码均已公开，便于行业参考与复现 [6][7]

强化学习（RL）

视觉-语言-动作（VLA）模型

监督微调（SFT）

强化学习（RL）

视觉-语言-动作（VLA）模型

监督微调（SFT）

让VLM学会「心中有世界」：VAGEN用多轮RL把视觉智能变成「世界模型」推理机器

机器之心· 2025-10-25 11:20

VAGEN框架核心创新 - 针对VLM智能体在复杂视觉任务中表现鲁莽的问题，提出通过强化学习显式构建内部世界模型[2][3] - 核心思想是奖励结构化思考过程，强制智能体遵循"状态估计(观现状)+转移建模(预后路)"的思考模板[6][7] - 框架将智能体内部信念分为观测、推理、预测三个部分，形成完整思考循环[9][11] 技术实现方案 - 引入世界模型奖励机制，使用LLM-as-a-Judge在每一步思考后即时评估状态描述和预测的准确性[18][24] - 提出双层优势估计方法，先评估整个回合的总体价值，再精细分配至每个词元，解决传统Token-Level GAE的混乱问题[20][22][29] - 针对不同任务性质优化思考表示方法：通用任务适合自然语言，高精度操控任务需要结构化坐标格式[14][23] 性能表现结果 - 使用Qwen2 5-VL-3B基础模型训练的VAGEN-Full在5个多样化任务上综合得分达0 82，显著超越未经训练的同一模型(0 21)[26][27][30] - 在多项任务中超越闭源大型模型，包括GPT-5(0 75)、Gemini 2 5 Pro(0 67)和Claude 4 5(0 62)[28][30] - 训练成功率曲线显示VAGEN-Full在Sokoban、PrimitiveSkill等任务中学习速度更快、稳定性更强[33] 应用场景与意义 - 实验环境涵盖2D网格、3D导航、机械臂操控和SVG重建等多种视觉任务，展示广泛适用性[15] - 该框架证明通过强化世界模型推理可以构建更强大、鲁棒且具泛化能力的VLM智能体[32] - 为解决部分可观测环境下的智能体决策问题提供了新范式，使智能体从被动执行器转变为主动思考者[2][32]

视觉 - 语言模型（VLM）

世界模型（World Model）

强化学习（RL）

Artificial Intelligence

VLM (视觉 - 语言模型)

视觉 - 语言模型（VLM）

世界模型（World Model）

强化学习（RL）

Artificial Intelligence

VLM (视觉 - 语言模型)