视觉 - 语言 - 动作模型 - 财报，业绩电话会，研报，新闻 - Reportify

视觉 - 语言 - 动作模型

搜索文档

开源对机器人的价值，远超想象丨唐文斌深度对谈抱抱脸联创

具身智能之心· 2025-10-21 08:03

文章核心观点 - 当前机器人研究面临“仿真到现实”的巨大鸿沟，许多模型在模拟器中表现完美但在现实世界中彻底失灵[2] - Dexmal与Hugging Face联合推出RoboChallengeai平台，旨在建立一个开放、统一、可复现的真实世界机器人评测基准[6][45] - 开源是推动物理智能/具身智能领域发展的关键驱动力，其重要性在机器人领域甚至超过在大语言模型中的作用[10][19][26] 行业痛点与挑战 - 机器人领域缺乏统一、开放且可复现的基准系统来公平比较不同方法、策略和模型[44] - 大多数现有基准仍基于仿真环境，由于“仿真到现实”差距，无法真实反映模型在现实中的表现[42][50] - 机器人评测面临硬件访问限制、环境变量控制、模型部署等多重技术难题[36][52][53] RoboChallengeai平台解决方案 - 平台首次实现全球研究者在物理环境中远程测试模型，通过独创的Remote Robot技术，用户仅通过API即可控制真实机器人[8][53] - 采用模型留在用户本地的部署方式，用户通过HTTP API访问平台摄像头和机器人进行远程测试，无需上传模型[53] - 以Table 30作为起点基准测试，提供30个任务，每个任务约1000个episodes的微调数据供开发者使用[53][61][62] 开源在具身智能中的作用 - AI领域几乎所有重大突破都基于开源，transformer架构及其演化都是全球开源社区协作的产物[10][11][12] - 开源使模型能够被应用到不同类型机器人上，实现“共同大脑”驱动各种机器人的新局面[22][23] - 本地化运行的嵌入式模型几乎都是开源模型，开源与硬件开发自然结合成为机器人领域演化关键动力[25][26] 平台发展愿景与规划 - 平台遵循完全开放策略，提供免费评测服务，任何人都可提交模型并获得排名[78][79] - 未来将扩展评测维度至多任务、长时任务、交互任务等更复杂场景[81] - 三到五年内，具身智能研究将向执行更长时间任务发展，基准测试随之演化[82] 公司背景与行业动态 - Dexmal成立仅20天即完成2亿元天使轮融资，投资方包括君联资本、九坤创投和启明创投[83][84] - 团队核心成员拥有超过十年AI原生产品与落地经验，在仓储场景已交付超过一万辆AMR/AGV[85] - 公司专注于将大模型和AI技术引入机器人领域，探索具身智能新赛道[86]

康臣药业(HK:01681)

交互式世界模型

视觉 - 语言 - 动作模型

交互式世界模型

视觉 - 语言 - 动作模型

刚刚，Figure 03惊天登场，四年狂造10万台，人类保姆集体失业

36氪· 2025-10-10 18:50

产品发布与定位 - Figure 03正式亮相，开启通用机器人规模化时代，专为Helix AI大脑、家庭使用及全球规模化应用而设计[1][3] - 产品是公司首款从零设计为大规模制造的机器人，目标在家庭与商业场景间无缝切换，例如物流搬运、工厂工作、配送快递等[21][22] - 公司CEO Brett Adcock表示未来每个家庭都将拥有一个人形机器人，该产品登上TIME杂志封面[6] 硬件设计与性能提升 - 全机采用柔性织物外层取代机械外壳，质量比Figure 02减轻9%，体积显著缩小，关键位置使用多密度泡沫防夹伤，提升家庭环境安全性[3][8][19] - 手部系统实现质的飞跃，每个指尖可感知低至3克的压力，能区分稳固握持与即将滑脱，可细腻操作如拾取鸡蛋或掀起扑克牌[16][17][20] - 执行器速度提升2倍，扭矩密度优化，支持更快搬取与操作[21] - 支持10 Gbps毫米波数据卸载，允许整个机器人舰队上传TB级数据用于持续学习与改进[18] 感知与交互系统 - 视觉系统帧率提升一倍，延迟降低至四分之一，视野角度扩大60%，结合更广景深，提供密集稳定感知数据流[11][12] - 每只手掌心集成广角低延迟摄像头，即使主摄像头被遮挡也能保持持续视觉感知，确保实时自适应控制[11][15] - 升级音频系统，扬声器体积翻倍，功率提升近四倍，麦克风位置优化，语音识别更清晰、交互更自然[24] 量产与商业化路径 - 公司创立BotQ高产能制造工厂，首期年产能12,000台，目标四年内累计生产100,000台[8][22][25] - 通过设计与流程革新、建立全新供应链、创立大批量制造工厂三大举措实现量产目标[25] - 产品配备无线感应充电，脚部内置充电线圈，踩上充电底座即可实现2kW功率快速充电[24]

通用机器人

视觉 - 语言 - 动作模型

通用机器人

视觉 - 语言 - 动作模型

机器人「看片」自学新技能：NovaFlow从生成视频中提取动作流，实现零样本操控

机器之心· 2025-10-09 10:24

NovaFlow 框架概述 - 提出一种名为 NovaFlow 的全新自动操作框架，其核心目标是绕过机器人学习中的数据瓶颈，实现无需真实演示或训练的零样本复杂操控任务 [2] - 该框架的关键创新在于将任务理解与底层控制解耦，并利用大型视频生成模型中蕴含的常识知识，而非依赖昂贵的机器人亲身经历数据 [4] - 通过让机器人观看由视频模型生成的任务视频，并从中提炼出“可执行3D对象流”作为任务表征，指导机器人执行动作 [2] 核心技术：可执行3D对象流 - 引入核心中间表征“可执行3D对象流”，本质是目标物体在三维空间中运动轨迹的点云集合，只描述物体本身应如何移动 [5] - 这种以物体为中心的设计是实现跨不同机器人平台泛化的关键，使得方法与具体机器人形态无关 [5] - 该动作流作为抽象的任务表征，可被后续模块转化为针对刚性、关节体和可变形物体的具体机器人动作序列 [7][15] 动作流生成器工作流程 - 流程始于使用先进视频生成模型，根据初始场景RGB-D图像和文本指令生成一段任务教学视频 [9][12] - 通过单目视频深度估计算法将2D视频提升至3D空间，并利用第一帧真实深度图对估计深度进行校准，以解决系统性误差 [13] - 使用3D点追踪模型密集追踪场景运动，再通过开放词汇对象检测分割模型提取目标物体的运动轨迹，得到纯净的3D对象流 [14] - 为应对视频模型可能产生的“幻觉”，引入拒绝采样步骤，利用视觉语言模型评估并选择最合理的候选动作流 [14] 动作流执行器控制策略 - 针对刚性物体和铰接物体，通过分析动作流中关键点变化，计算物体在每个时间步的6D位姿，进而生成机械臂末端执行器的位姿序列和关节指令 [20] - 针对可变形物体，将3D动作流用作密集追踪目标，指导基于模型的规划器进行操作，通过粒子动力学模型预测形态变化并优化机器人动作以拟合理想状态 [20] 实验验证与性能表现 - 在Franka机械臂和波士顿动力Spot四足机器人上进行了广泛实验，任务涵盖刚性物体、铰接物体和可变形物体三大类 [16] - 实验结果显示，NovaFlow在所有零样本方法中表现最佳，其成功率甚至超过了使用10个和30个真实示教数据训练的模仿学习策略 [18][19] - 成功率的优势归因于其精确的3D动作表示，相比依赖2D光流的方法，具备更好的3D感知和长期一致性 [19] 挑战与未来方向 - 当前方法的主要局限性在于物理执行的“最后一公里”，如抓取失败或意外物理动态导致的执行偏差，暴露了开环规划系统的脆弱性 [23] - 未来的重要研究方向是开发闭环反馈系统，通过实时感知环境反馈来动态调整生成的动作流，以增强对现实世界不确定性和干扰的鲁棒性 [23]

可执行3D对象流

大型语言模型

视觉语言模型

视觉 - 语言 - 动作模型

可执行3D对象流

大型语言模型

视觉语言模型

视觉 - 语言 - 动作模型

元戎启行发布全新辅助驾驶平台

深圳商报· 2025-08-27 15:05

产品发布 - 元戎启行在深圳发布全新一代辅助驾驶平台DeepRoute IO 2.0 [1] - 平台搭载自研VLA（视觉-语言-动作）模型融合视觉感知、语义理解与动作决策三大核心能力 [1] - VLA模型对比传统端到端模型更擅长应对复杂路况在安全性和舒适性方面呈现断代式突破 [1] 技术特性 - DeepRoute IO 2.0以"多模态+多芯片+多车型"适配为核心设计理念支持激光雷达与纯视觉版本 [1] - 平台可面向多种主流乘用车平台开展定制化部署 [1] - VLA模型融合语言模型具备强大思维链能力能摆脱传统端到端模型的"黑盒"难题 [1] - 模型通过信息串联分析推理因果关系天然集成海量知识库泛化能力更强 [1] 商业进展 - 元戎启行获得超过10款车型的定点合作已在量产商业化方面建立坚实基础 [1]

视觉 - 语言 - 动作模型

DeepRoute IO 2.0平台

VLA（视觉 - 语言 - 动作）模型

视觉 - 语言 - 动作模型

DeepRoute IO 2.0平台

VLA（视觉 - 语言 - 动作）模型

VLA+RL还是纯强化？从200多篇工作中看强化学习的发展路线

具身智能之心· 2025-08-18 08:07

视觉强化学习综述核心观点 - 该综述对视觉强化学习（VRL）领域进行系统性梳理，整合200+篇研究成果，提出四大主题支柱：多模态大型语言模型、视觉生成、统一模型框架和视觉-语言-动作模型，并分析算法设计、奖励工程及评估协议 [5] - 强调强化学习在视觉任务中的关键作用，包括跨模态对齐、长序列优化及可验证奖励设计，同时指出开放挑战如推理效率、长视野信用分配等 [47] 研究框架强化学习范式 - **RLHF（基于人类反馈的强化学习）**：通过三元组偏好数据训练奖励模型，结合PPO优化策略，三阶段流程（监督预训练→奖励建模→策略优化）成为主流 [10] - **DPO（直接偏好优化）**：绕过奖励建模环节，直接通过封闭式监督目标优化策略，降低计算成本 [11] - **RLVR（带可验证奖励的强化学习）**：用确定性验证信号（如代码测试结果）替代人类偏好，提升客观性 [12] 策略优化算法 - **PPO（近端策略优化）**：通过重要性采样和广义优势估计实现稳定策略更新，依赖精确奖励模型 [15] - **GRPO（群体相对策略优化）**：利用群体归一化优势信号替代价值网络，降低内存消耗并提升训练稳定性 [16] 应用领域多模态大型语言模型 - **传统方法**：通过GRPO/PPO将视觉-语言模型与可验证奖励对齐，如RePIC、GoalLadder等 [17] - **空间感知**：2D任务（目标检测、分割）和3D任务（布局推理）均采用规则驱动奖励和KL正则化微调 [18] - **视频推理**：分层奖励设计（如VQ-Insight）和时间衰减回报（如TW-GRPO）解决长序列挑战 [20] 视觉生成 - **图像生成**：DiffPPO等结合扩散模型与感知奖励（如ImageReward），提升生成质量 [21] - **3D生成**：DreamCS等通过渲染-比较循环优化几何结构，强化学习实现标准方法难以达到的保真度 [24] 视觉-语言-动作模型 - **GUI自动化**：规则驱动奖励（如GUI-R1）和群体归一化更新（如UIShift）推动跨平台交互 [28] - **视觉导航**：OctoNav-R1等结合第一人称视觉与低级动作控制，通过混合强化学习管道提升泛化性 [29] 评估体系 - **多模态模型**：结合外部基准（如MME）、人类偏好奖励和KL散度监控 [35] - **视觉生成**：FID/CLIP Score等传统指标与去噪轨迹诊断结合 [36] - **GUI任务**：在线成功率与逐步奖励设计（如Mind2web）平衡稀疏信号问题 [39] 未来方向 - **自适应推理**：通过终止评论者动态平衡深度与效率 [43] - **长视野优化**：子目标发现与对比视觉-语言评论者缓解稀疏奖励问题 [44] - **奖励模型设计**：需开发抗攻击、跨模态且用户可定制的综合奖励函数 [46]

视觉强化学习

多模态大型语言模型

视觉 - 语言 - 动作模型

基于人类反馈的强化学习（RLHF）

视觉强化学习

多模态大型语言模型

视觉 - 语言 - 动作模型

基于人类反馈的强化学习（RLHF）

视觉强化学习最新综述：全领域梳理（新加坡国立&浙大&港中文）

自动驾驶之心· 2025-08-16 08:03

研究背景与综述定位 - 视觉强化学习（Visual RL）的爆发源于强化学习在大语言模型（LLM）中的成功迁移，特别是RLHF（人类反馈强化学习）显著提升了LLM的人类偏好对齐与复杂推理能力[7] - 当前领域面临三大核心挑战：复杂奖励信号下的策略优化稳定性、高维视觉输入的高效处理、长周期决策场景的可扩展奖励函数设计[7] - 综述核心目标包括形式化视觉RL问题、分类200+研究为四大支柱（多模态LLM/视觉生成/统一模型/VLA模型）、分析算法设计与评估体系[8] 视觉强化学习的理论基础 - 问题建模采用马尔可夫决策过程（MDP），将文本/图像/视频生成统一为episodic MDP框架，状态包含用户prompt和已生成动作序列[15] - 三大对齐范式：RLHF（三阶段流程：SFT→奖励模型→PPO优化）、DPO（直接优化偏好数据）、RLVR（可验证奖励替代主观偏好）[18][19][20] - 策略优化算法PPO（带价值网络与KL惩罚）和GRPO（组相对优势+移除价值网络）分别适用于通用场景和内存密集型任务[26][27] 四大核心应用领域多模态大语言模型（MLLM） - 常规RL驱动型MLLM使用可验证奖励（如精确匹配/IoU）优化VLM骨干，代表模型包括RePIC、GoalLadder、GRPO-CARE[32] - 空间感知方向分为2D（Omni-R1双系统GRPO优化情感识别）和3D（MetaSpatial用渲染深度奖励优化AR场景生成）[34] - 图像推理分为"基于图像思考"（SVQA-R1用视图一致性奖励）和"用图像思考"（GRIT优化答案正确性+框精度）[35] 视觉生成 - 图像生成三大奖励范式：人类中心偏好优化（ImageReward）、多模态推理对齐（UnifiedReward）、Metric驱动优化（DDPO最小化FID）[37][40] - 视频生成通过偏好模型优化（InstructVideo）、组相对优化（DanceGRPO）、领域特定奖励（Phys-AR惩罚物理定律违反）提升时序一致性[41] - 3D生成采用RL优化文本-网格生成（DreamCS融合轮廓IoU与CLIP对齐）、交互式编辑（Nabla-R2D3用实时渲染验证奖励）[41] 视觉-语言-动作模型（VLA） - GUI自动化分桌面（GUI-R1映射点击成功为稠密奖励）和移动场景（AgentCPM-GUI压缩动作空间适配设备）[42] - 视觉导航采用端到端RL（VLN-R1时间衰减奖励处理轨迹）和仿真微调（Flare实现家居场景泛化）[45] - 机器人操纵通过任务接地奖励（TGRPO）、课程式RL（RLVLA提升重排成功率）优化长周期规划[45] 评估指标与未来方向 - 分层评估框架包含集合级（FID/FVD）、样本级（人类偏好分数）、状态级（KL散度监控策略漂移）[46][48][49] - 开放挑战包括有效推理平衡（自适应周期策略）、VLA长周期RL（分层子目标发现）、视觉思考RL（混合动作空间设计）[50][51][52] - 奖励模型设计需融合低阶信号（几何一致性）与高阶偏好，并实现跨模态泛化与动态更新[53][56]

视觉强化学习

大语言模型

计算机视觉

基于人类反馈的强化学习（RLHF）

直接偏好优化（DPO）

视觉强化学习

大语言模型

计算机视觉

基于人类反馈的强化学习（RLHF）

直接偏好优化（DPO）

自动驾驶中常提的VLM是个啥？与VLA有什么区别？

自动驾驶之心· 2025-08-09 00:04

自动驾驶视觉语言模型(VLM)技术解析核心观点 - VLM是融合视觉与语言处理能力的多模态AI系统，通过联合处理图像特征与文本信息实现场景深度理解与自然语言交互[6] - 在自动驾驶领域，VLM可识别交通标志文字、生成安全提示、支持语义问答，显著提升车辆环境感知与交互能力[12] - 与VLA相比，VLM侧重"视觉理解+语言表达"，而VLA扩展至"感知-决策-执行"闭环，两者在架构与任务目标上存在本质差异[18] 技术实现路径模型架构 - 采用视觉编码器(CNN/ViT)提取道路纹理、车辆轮廓等特征，语言模块(Transformer)处理语义关联，通过跨模态注意力机制实现图文对齐[8][9] - 训练分两阶段：预训练阶段使用互联网图文数据建立通用能力，微调阶段采用自动驾驶专属数据集(覆盖不同道路/天气/交通场景)[11] 应用功能 - 实时场景提示：识别施工标志/水坑等危险区域，生成"减速绕行"等自然语言提示并通过车载系统播报[12] - 交互式语义问答：结合图像与地图数据回答"最优车道选择""转向限制"等乘客语音询问[12] - 路牌文字识别：结构化输出"限高3.5米""禁止掉头"等交通标志信息至决策模块[12] 部署优化 - 采用边缘-云协同架构：云端完成模型训练/微调，车载单元部署轻量化推理模型(经剪枝/量化优化)实现毫秒级响应[14] - 数据标注需覆盖多光照/天气条件，标注内容包含物体框选与自然语言描述(如"左侧车道封闭需减速至60km/h")[14] 技术演进方向 - 融合雷达/LiDAR/V2X等多源数据提升环境感知全面性，整合实时交通法规/气象信息更新决策背景知识[16] - 通过模型集成/贝叶斯深度学习评估不确定性，低置信度时切换至传统传感器融合方案保障安全性[15] - 结合大语言模型(LLM)与大视觉模型(LVM)发展，推动多模态融合感知与交互能力升级[16]

视觉 - 语言模型

视觉 - 语言 - 动作模型

VLM（视觉 - 语言模型）

VLA（视觉 - 语言 - 动作模型）

视觉 - 语言模型

视觉 - 语言 - 动作模型

VLM（视觉 - 语言模型）

VLA（视觉 - 语言 - 动作模型）

模拟大脑功能分化！Fast-in-Slow VLA，让“快行动”和“慢推理”统一协作

具身智能之心· 2025-07-13 17:48

研究背景与挑战 - 机器人操作系统需依据传感器输入和语言指令生成精确控制信号，但大规模视觉-语言模型(VLMs)因参数庞大和推理速度慢，限制了高频控制任务的实用性[9] - 现有双系统结构(系统1快速执行/系统2深度推理)存在协同效率低下问题，系统1无法充分利用系统2的语义推理结果[9] 技术方案创新 - FiS-VLA通过将VLM末端Transformer层重构为系统1执行模块，实现快慢系统一体化设计，系统2低频处理2D图像/语言指令，系统1高频响应实时感知输入[11] - 采用异构模态输入设计：系统2接收语言指令与2D图像，系统1接收2D图像/机器人状态/3D点云信息[15] - 双系统协作采用1:4频率比，系统2每运行一次可为系统1后续H步动作生成提供约束[14] 架构与训练 - 基于Prismatic VLM架构，包含SigLIP+DINOv2视觉编码器、LLaMA2-7B语言模型(最后n层Transformer用于系统1)、轻量级3D tokenizer[13] - 系统1采用扩散建模增强动作生成能力，系统2保留自回归推理能力，联合优化训练使用86万条轨迹数据[15][16] 性能表现 - 仿真测试：RLBench任务平均成功率69%，显著优于CogACT(61%)与π0(55%)，控制频率达21.9Hz(CogACT的2倍)[18][19] - 真机测试：Agilex与AlphaBot平台平均成功率分别达68%与74%，在"倒水"等高精度任务中优势显著[20] - 泛化能力：面对未见物体/复杂背景/光照变化时，FiS-VLA准确率下降幅度(19%-31%)远小于π0(27%-46%)[23][24] - 消融实验：共享2层Transformer时性能最佳，单步预测8个动作理论控制频率达117.7Hz[25] 应用前景 - 通过统一VLM嵌入执行模块实现推理与控制融合，具备高频(117.7Hz)/高精度/强泛化特性[29] - 未来引入动态调整共享结构与协同频率策略可进一步提升自适应性与鲁棒性[29]

双系统理论

视觉 - 语言 - 动作模型

Fast-in-Slow（FiS-VLA）

双系统理论

视觉 - 语言 - 动作模型

Fast-in-Slow（FiS-VLA）

首次！世界模型、动作模型融合，全自回归模型WorldVLA来了

机器之心· 2025-07-03 16:01

核心观点 - 阿里巴巴达摩院提出WorldVLA模型，首次将世界模型和动作模型融合到一个全自回归模型中，实现文本、图片、动作的统一理解和生成 [1][5] - WorldVLA通过双向增强机制，既提升动作生成的准确性，也增强图像预测的质量 [7] - 在LIBERO基准测试中，WorldVLA抓取成功率提升4%，视频生成质量FVD指标降低10% [8] 模型架构 - 使用三个独立编码器分别处理图像、文本和动作数据，不同模态token共享相同词表 [5] - 世界模型部分通过输入动作生成视觉表示，学习环境物理动态规律 [7] - 动作模型部分增强对视觉信息的理解，提升世界模型的图像生成准确性 [7] 技术创新 - 提出动作注意力掩码策略，解决自回归模型中动作生成误差累积问题 [7] - 该策略在动作分块生成任务中使抓取成功率提升4%到23% [8] - 在未预训练情况下，WorldVLA超越需要预训练的全自回归模型OpenVLA [17] 实验结果 - 在LIBERO基准测试中，256*256版本平均成功率79.1%，512*512版本提升至81.8% [18] - 消融实验显示加入世界模型可使动作模型平均成功率从62.8%提升至67.2% [19] - 采用注意力掩码策略后，动作模型平均成功率从54.0%大幅提升至76.6% [19] 应用展示 - 可根据指令完成对应动作 [20] - 能够根据当前帧图片和动作生成下一帧图片 [24]

阿里巴巴(US:BABA)

视觉 - 语言 - 动作模型

自回归模型

视觉 - 语言 - 动作模型

自回归模型

自动驾驶中常提的VLA是个啥？

自动驾驶之心· 2025-06-18 21:37

核心观点 - VLA（视觉-语言-动作模型）通过端到端融合视觉感知、语言理解与动作决策，实现从环境观察到控制指令输出的闭环映射，提升自动驾驶系统的泛化能力与场景适应性[2] - VLA模型简化了传统自动驾驶模块化架构，通过统一神经网络学习最优控制策略，减少误差累积和规则设计复杂性[4] - 行业认为VLA将推动自动驾驶进入"端到端2.0"时代，成为下一代技术基石[15][16] 技术架构 - **视觉编码器**：采用CNN或Vision Transformer提取图像/点云特征，部分引入三维空间编码器增强场景理解[8][9] - **语言编码器**：接入预训练语言模型，理解自然语言指令（如"第二个红绿灯右转"）和安全策略（如"行人出现时减速至5公里/小时以下"）[11] - **跨模态融合层**：使用自注意力机制或图神经网络实现视觉与语言特征的对齐融合[11] - **动作解码器**：基于强化学习直接预测转向角度、加速度等连续控制信号[11] 行业应用 - DeepMind的RT-2模型展示了VLA在机器人控制的潜力[13] - 元戎启行推出"端到端2.0版本"VLA模型，CEO称其将推动城区智驾达到"好用"状态[13] - 智平方GOVLA模型在机器人领域实现全身协同与长程推理，为智能驾驶提供参考[13] 技术优势 - 场景泛化能力：通过大规模多模态数据学习，在复杂路口、弱光环境等场景表现更优[12] - 上下文推理：融入语言理解后可根据指令动态调整驾驶策略[12] - 系统简化：省去传统方案中的规则引擎和多阶段优化，提高数据利用效率[4][11] 发展挑战 - 可解释性不足："黑盒子"特性导致边缘场景决策失误难以排查[13] - 数据需求：需构建覆盖多种交通场景的高保真仿真环境和海量训练数据[13] - 计算瓶颈：实时性优化难度高，商用化面临算力资源消耗大的问题[13] 未来方向 - 结合可解释性模块或Diffusion模型优化决策透明度与轨迹平滑性[15] - 与传统规则引擎或MPC组成混合架构提高安全冗余[15] - 扩展至车队协同、远程遥控及人机交互等场景[15]

视觉 - 语言 - 动作模型

视觉 - 语言 - 动作模型