多模态大型语言模型 - 财报，业绩电话会，研报，新闻

多模态大型语言模型

搜索文档

具身智能之心· 2025-11-20 12:02

文章核心观点 - 提出一种名为VLA-Pilot的即插即用推理时策略引导方法，旨在解决预训练视觉语言动作模型在下游任务部署时出现的性能下降问题 [2] - 该方法无需额外微调或数据收集，即可实现预训练VLA模型的零样本部署，大幅降低了部署成本 [2] - VLA-Pilot通过结合多模态大型语言模型的开放世界推理能力和进化扩散算法的动作优化，提升了对多样化任务和机器人形态的稳健零样本泛化能力 [6] 现有问题分析 - 预训练VLA策略在下游部署过程中会出现显著的性能下降，而传统的微调方法依赖高昂的演示数据收集和密集型计算，在现实场景中不实用 [2] - 部署失败并不一定意味着预训练策略无法生成正确行为，而是由于运行时模式选择不当导致无法可靠执行 [4] - 现有的推理时引导方法存在局限性：其验证器需要额外训练且泛化能力有限，并且仅依赖从固定候选集中选择动作，在复杂任务中可能无法恢复成功行为 [5] 方法详解 - VLA-Pilot的核心是利用MLLM作为开放世界验证器以增强泛化能力，并采用进化扩散过程作为动作优化器以提高任务对齐度 [6] - 具身策略引导思维链模块将推理过程分解为四个交错阶段：引导目标确认、场景理解、具身增强和引导目标生成，最终输出非可微黑盒评分函数作为奖励 [11][12] - 进化扩散算法首先从预训练VLA策略采样动作候选，然后基于引导奖励迭代评估和变异候选集，通过结合扩散过程的多模态表达和进化搜索的黑盒优化来提升任务对齐度 [14][15][16][17] - 引入迭代引导优化机制实现闭环修正，通过反思步骤让MLLM作为自我批判者来优化引导奖励并生成引导成功指示器，提升引导精度和稳健性 [20][21] 实验对比分析 - 实验在双臂机器人系统上进行了评估，涵盖六个下游操作任务，包括四个简单单臂任务和两个复杂双臂操作任务，并设置了分布内和分布外两种场景 [23][26] - 在分布内任务中，VLA-Pilot结合DiVLA策略在整体任务上的平均操作成功率达到62%，显著高于基线方法DiVLA的31%和RDT-1B的30% [30] - 在分布外任务中，VLA-Pilot展现出稳健的泛化能力，整体平均成功率达到50%，远高于V-GPS的12%和FOREWARN的19% [31][32] - VLA-Pilot实现了与使用50个专家演示进行监督微调相当的性能，表明该方法能有效提取预训练模型中的潜在知识 [35]

VLA+RL还是纯强化？从200多篇工作中看强化学习的发展路线

具身智能之心· 2025-08-18 08:07

视觉强化学习综述核心观点 - 该综述对视觉强化学习（VRL）领域进行系统性梳理，整合200+篇研究成果，提出四大主题支柱：多模态大型语言模型、视觉生成、统一模型框架和视觉-语言-动作模型，并分析算法设计、奖励工程及评估协议 [5] - 强调强化学习在视觉任务中的关键作用，包括跨模态对齐、长序列优化及可验证奖励设计，同时指出开放挑战如推理效率、长视野信用分配等 [47] 研究框架强化学习范式 - **RLHF（基于人类反馈的强化学习）**：通过三元组偏好数据训练奖励模型，结合PPO优化策略，三阶段流程（监督预训练→奖励建模→策略优化）成为主流 [10] - **DPO（直接偏好优化）**：绕过奖励建模环节，直接通过封闭式监督目标优化策略，降低计算成本 [11] - **RLVR（带可验证奖励的强化学习）**：用确定性验证信号（如代码测试结果）替代人类偏好，提升客观性 [12] 策略优化算法 - **PPO（近端策略优化）**：通过重要性采样和广义优势估计实现稳定策略更新，依赖精确奖励模型 [15] - **GRPO（群体相对策略优化）**：利用群体归一化优势信号替代价值网络，降低内存消耗并提升训练稳定性 [16] 应用领域多模态大型语言模型 - **传统方法**：通过GRPO/PPO将视觉-语言模型与可验证奖励对齐，如RePIC、GoalLadder等 [17] - **空间感知**：2D任务（目标检测、分割）和3D任务（布局推理）均采用规则驱动奖励和KL正则化微调 [18] - **视频推理**：分层奖励设计（如VQ-Insight）和时间衰减回报（如TW-GRPO）解决长序列挑战 [20] 视觉生成 - **图像生成**：DiffPPO等结合扩散模型与感知奖励（如ImageReward），提升生成质量 [21] - **3D生成**：DreamCS等通过渲染-比较循环优化几何结构，强化学习实现标准方法难以达到的保真度 [24] 视觉-语言-动作模型 - **GUI自动化**：规则驱动奖励（如GUI-R1）和群体归一化更新（如UIShift）推动跨平台交互 [28] - **视觉导航**：OctoNav-R1等结合第一人称视觉与低级动作控制，通过混合强化学习管道提升泛化性 [29] 评估体系 - **多模态模型**：结合外部基准（如MME）、人类偏好奖励和KL散度监控 [35] - **视觉生成**：FID/CLIP Score等传统指标与去噪轨迹诊断结合 [36] - **GUI任务**：在线成功率与逐步奖励设计（如Mind2web）平衡稀疏信号问题 [39] 未来方向 - **自适应推理**：通过终止评论者动态平衡深度与效率 [43] - **长视野优化**：子目标发现与对比视觉-语言评论者缓解稀疏奖励问题 [44] - **奖励模型设计**：需开发抗攻击、跨模态且用户可定制的综合奖励函数 [46]

NVIDIA最新！ThinkAct：复杂的具身任务中实现少样本适应、长时程规划

具身智能之心· 2025-07-24 17:53

核心观点 - ThinkAct提出了一种双系统框架，通过强化视觉潜在规划将高层推理与低层动作执行连接起来，显著提升了复杂具身AI任务中的少样本适应、长时程规划和ego修正能力 [4][9] - 该方法通过动作对齐视觉奖励（目标奖励和轨迹奖励）引导MLLM生成具身推理planning，并将其压缩为视觉planning潜变量，为下游动作模型提供条件 [14][17][18] - 在机器人操作和具身推理基准测试中，ThinkAct表现优于现有方法，如在SimplerEnv上比基准动作模型DiT-Policy最高提升16.9%，在LIBERO基准上以84.4%成功率位居榜首 [25][26] 方法架构双系统设计 - 高层推理系统：MLLM生成具身推理planning，通过强化学习（GRPO）优化，奖励函数结合目标完成度（r_goal）和轨迹一致性（r_trail） [12][19][20] - 低层执行系统：基于Transformer的动作模型以视觉planning潜变量为条件，实现异步"慢思考-快控制"执行模式 [21][22] 关键技术 - 动作对齐视觉反馈：目标奖励（式1）评估起始/结束位置匹配度，轨迹奖励（式2）通过DTW距离规范轨迹分布 [17] - 强化微调：采用GRPO算法，从M组响应中选择最优解，KL散度约束防止模型偏离原始分布 [19] - 潜变量压缩：将文本推理抽象为紧凑的视觉planning潜变量，捕捉时空规划意图 [20][23] 性能表现定量结果 - 机器人操作： - SimplerEnv-Google-VM任务中Pick Coke Can子任务达到92%成功率，比Magma提升8.3% [25] - LIBERO-Long任务成功率70.9%，显著优于CoT-VLA（69%）和DiT-Policy（57.6%） [25] - 具身推理： - EgoPlan-Bench2总体得分48.2%，超越GPT-4V（32.6%）和Qwen2.5-VL*（45.7%） [27] - RoboVQA的BLEU-4得分52.4%，比次优方法高4.4分 [27] 定性优势 - 长时程规划：将"拿起书放入后部隔间"分解为3个子任务，可视化轨迹显示gripper严格遵循推理planning [30] - Ego修正：在物体掉落场景中，通过视频context识别故障并生成重新抓取的修正planning [37] 创新价值 - 行业突破：首次实现强化学习驱动的视觉-语言-动作联合推理，解决端到端模型在长时程规划中的局限性 [6][7] - 技术复用性：潜变量设计兼容不同动作模型（如Diffusion Policy），支持跨平台部署 [21][23] - 数据效率：仅需10个演示样本即可在新环境（LIBERO-Spatial）实现9.5%的少样本性能提升 [35]

具身智能

多模态大型语言模型

强化学习

Artificial Intelligence

Artificial Intelligence

ThinkAct

打破资源瓶颈！华南理工&北航等推出SEA框架：低资源下实现超强多模态安全对齐

AI前线· 2025-05-24 12:56

多模态大模型安全对齐技术 - 北航彭浩团队提出SEA框架，通过合成嵌入技术解决多模态大模型(MLLMs)低资源安全对齐难题，突破真实多模态数据构建的资源瓶颈[1][6] - SEA框架在模态编码器表示空间中优化合成嵌入，替代真实多模态数据，仅需文本输入即可实现跨模态安全对齐[8][10] - 当前MLLMs安全对齐面临三大挑战：多模态数据集构建成本高、文本对齐对非文本攻击防御弱、新兴模态缺乏通用解决方案[4][5][6] SEA技术实现细节 - SEA框架包含三大组件：模态编码器M(・)、投影层P(・)和大型语言模型(LLM)，通过冻结模型参数仅优化嵌入向量实现安全对齐[9][14][16] - 嵌入优化过程采用内容控制样本和风格控制样本，最大化模型生成指定内容的概率，平均优化时间在单张3090上不超过24秒[15][16][36] - 安全对齐阶段将合成嵌入与文本数据集整合，通过修改前向传播过程适配现有训练策略，支持与真实数据集混合使用[19] 评估基准与实验结果 - 构建VA-SafetyBench评估基准，包含视频和音频两大模态，覆盖八大安全场景，攻击成功率最高达71.13%（视频）和65.97%（音频）[20][21][28][29] - 实验显示SEA在图像模态将多模态攻击成功率从62.78%降至2.74%，在视频模态从69.24%降至6.35%，音频模态从34.31%降至4.15%[33][34][35] - 嵌入验证成功率(VSR)达87.76%（图像）、69.52%（视频）和97.15%（音频），证明合成内容与模型语义高度一致[36] 行业应用价值 - SEA框架在Llava-v1.5-7b-hf、Qwen2-VL-7b和Qwen2-Audio-7b等主流模型上验证有效，展现跨模态通用性[31][34][35] - 相比传统方法，SEA显著降低计算成本，单个样本合成时间缩短至12-24秒，支持大规模并行处理[36] - 该技术为新兴模态提供前瞻性解决方案，在高质量真实数据集稀缺阶段可作为安全落地的过渡方案[37]