视觉语言动作模型(VLA)
搜索文档
微软&港科对比多种迁移技术!VLA 到底如何有效地继承 VLM 中丰富的视觉-语义先验?
具身智能之心· 2025-11-16 00:03
文章核心观点 - 微软研究院与香港科技大学等团队提出的GrinningFace基准,旨在解决视觉语言动作模型如何有效继承大型视觉语言模型中丰富视觉-语义先验的核心问题 [1] - 该基准通过表情符号桌面操作任务,构建了能分离动作技能与语义识别能力的纯净测试环境,以精准诊断知识迁移效果 [2][4] - 系统实验揭示了VLM先验对VLA泛化能力的关键作用,并指出共训练、潜态动作预测等技术是实现高效知识迁移的关键方向 [7][13][19] GrinningFace基准的设计与目的 - 基准创新性地选择在VLM预训练数据中普遍存在、但机器人数据集中几乎未出现的表情符号作为核心代理,以分离“机器人动作技能”与“VLM先验知识”的贡献 [2] - 任务要求机器人手臂根据语言指令将立方体放置到对应的表情符号卡片上,指令格式为“拿起立方体并放置在 [表情描述] 上” [4] - 基准包含100个训练集表情符号和100个验证集表情符号,确保评估模型的泛化能力 [8] 评估体系与关键指标 - 采用双维度评估体系,将成功率拆分为执行成功率和识别成功率进行单独量化 [5] - 执行成功率反映机器人成功抓取立方体并放置到任意表情卡的概率,用于衡量动作技能掌握程度 [8] - 识别成功率反映机器人选择正确目标表情卡的概率,直接体现VLM先验知识的迁移效果 [8] - 设计了三类测试场景,全面覆盖分布内与分布外泛化评估 [8] 不同微调策略的性能对比 - 全参数微调适配特定任务效果好,但易发生灾难性遗忘,丢失VLM先验知识 [5] - 仅微调动作头能最大程度保留VLM先验,但动作技能学习不足,分布内场景适配差 [5] - LoRA微调能平衡先验保留与动作学习,但知识迁移提升有限,仍有优化空间 [5] 高效知识迁移的关键技术方向 - 共训练技术在VLA训练中加入视觉语言任务,在真实机器人实验中识别成功率达86.7%(26/30) [7][11] - 潜态动作预测将潜态动作作为高阶训练目标,避免模型被低阶信号干扰,识别成功率达80%(24/30) [11][13] - VLM冻结加LoRA预训练能大幅提升识别成功率超过90%,但复杂动作技能适配速度慢 [13] 实验验证与核心发现 - 真实机器人实验与仿真环境结果高度一致,验证了结论的可靠性 [11] - 注意力图谱分析揭示了“VLM先验→预训练对齐→微调优化”的递进式迁移路径 [15] - VLM先验的保留程度直接决定VLA的泛化能力,灾难性遗忘是当前技术的主要瓶颈 [19] 未来研究方向 - 优化参数高效微调技术,提升LoRA等方法的知识迁移效率 [19] - 设计更贴合真实场景的复杂任务,验证迁移技术的规模化应用能力 [19] - 探索多模态先验融合,结合触觉、语音等信息增强VLA的环境适应能力 [19]
阿里新研究:统一了VLA和世界模型
自动驾驶之心· 2025-11-06 16:43
WorldVLA模型框架概述 - 提出WorldVLA统一框架,融合视觉语言动作模型与世界模型,旨在让AI理解世界 [1] - 该框架由阿里巴巴达摩院、湖畔实验室和浙江大学共同提出 [1] - 实验结果表明,WorldVLA表现显著优于独立的动作模型与世界模型,体现二者相互增强效应 [2] 技术架构与实现细节 - 基于Chameleon模型初始化,使用三套独立分词器对图像、文本和动作进行编码 [8] - 图像分词器采用VQ-GAN模型,压缩比为16,码本大小为8192 [8] - 对于256×256图像生成256个token,对于512×512图像生成1024个token [8] - 动作分词器将连续机器人动作每个维度离散化为256个区间,动作由7个token表示 [8] - 提出针对动作生成的替代注意力掩码,使自回归框架能并行生成多个动作 [11][12] 模型性能评估 - 在无预训练情况下,WorldVLA(256×256)平均成功率为79.1%,优于OpenVLA的76.5% [19][21] - WorldVLA(512×512)平均成功率提升至81.8%,显示模型性能与图像分辨率呈正相关 [21][22][23] - 引入世界模型后,动作模型平均成功率从62.8%提升至78.1% [25][26] - 在视频生成质量上,WorldVLA在50帧序列的FVD指标为674.1,优于纯世界模型的718.6 [32] 技术优势与应用前景 - 世界模型通过预测未来图像学习环境物理规律,提升动作生成准确性 [5][25] - 动作模型基于图像观测生成后续动作,反向促进世界模型视觉生成能力 [5][17] - 框架结合VLA抽象思考与世界模型物理感知,被视为通往具身智能的路径 [36][37]
阿里新研究:一统VLA和世界模型
具身智能之心· 2025-10-31 08:04
WorldVLA框架概述 - 核心创新是将视觉语言动作模型与世界模型融合的统一框架,由阿里巴巴达摩院、湖畔实验室和浙江大学共同提出[2] - 该自回归动作世界模型通过结合动作与图像理解来预测未来图像,同时基于图像观测生成后续动作[5][6] - 实验结果显示其表现显著优于独立的动作模型与世界模型,体现二者相互增强效应[3] 技术架构设计 - 基于Chameleon模型初始化,采用三套独立分词器处理图像、文本和动作编码[9] - 图像分词器使用VQ-GAN模型,压缩比为16,码本大小8192:256×256图像生成256个token,512×512图像生成1024个token[9] - 动作分词器将连续机器人动作的每个维度离散化为256个区间,动作由7个token表示[9] - 创新设计替代注意力掩码,使动作生成仅依赖文本和视觉输入,屏蔽之前动作影响,实现并行生成多个动作[12][13] 性能基准测试 - 在离散动作模型对比中,WorldVLA(256×256)平均成功率79.1%,优于OpenVLA的76.5%[22] - 分辨率提升至512×512时性能进一步提高,平均成功率81.8%,显示分辨率与性能正相关[22] - 在连续动作模型对比中,WorldVLA未使用预训练即超越部分预训练模型,证明架构有效性[20][22] 世界模型对动作模型的增强 - 引入世界模型后动作模型成功率从62.8%提升至78.1%,特别是在长序列任务中从23.0%提升至52.4%[26][27] - 世界模型赋予系统前瞻推演能力,通过预判动作后果优化决策,案例显示能持续尝试直到操作成功[26][28] - 环境物理理解、动作风险评估和精确动作解析是三方面主要增强机制[15][16][17] 动作模型对世界模型的提升 - 在视频生成质量上,动作世界模型在50帧序列的FVD指标从718.6优化至674.1,PSNR从23.98提升至24.30[33] - 纯世界模型出现抽屉无法拉开、物体消失等缺陷,而动作世界模型生成连贯且符合物理规律的后续状态[33] - 动作模型通过增强视觉理解能力进一步支持世界模型的视觉生成[18] 行业专家观点 - 小米汽车高级研究总监陈龙认为VLA与世界模型可结合相互促进,分别负责"抽象思考"和"物理感知"[37] - VLA与世界模型结合被视为通往具身智能的重要路径[37]
阿里新研究:统一了VLA和世界模型
36氪· 2025-10-29 18:32
模型框架与核心创新 - 提出WorldVLA,一个将视觉语言动作模型与世界模型相融合的统一自回归动作世界模型框架 [1][4] - 该框架旨在解决VLA模型缺乏对动作的深度理解以及世界模型无法直接生成动作的功能局限 [4] - 模型使用三套独立的分词器对图像、文本和动作进行编码,所有模态信息被离散化为token并以自回归方式训练 [6][8] 技术实现细节 - 图像分词器采用VQ-GAN模型,压缩比为16,码本大小为8192,256×256图像生成256个token,512×512图像生成1024个token [6] - 动作分词器将连续机器人动作的每个维度离散化为256个区间,动作由7个token表示 [6] - 文本分词器词表大小为65536,包含8192个图像token和256个动作token [8] - 提出针对动作生成的替代注意力掩码,使当前动作生成仅依赖文本和视觉输入,可实现并行生成多个动作 [10] 性能表现与优势 - 在基准测试中,WorldVLA模型即使未经预训练,其性能也优于离散化OpenVLA模型 [12] - 512×512分辨率模型平均成功率(Average SR)达81.8%,优于256×256分辨率模型的79.1% [13] - 更高分辨率带来性能提升,归因于主干模型预训练策略及更多视觉细节信息,对高精度抓取任务尤为重要 [13][14] 模型协同效应 - 引入世界模型数据可增强动作生成能力,世界模型通过预测未来状态促使模型学习底层物理规律 [11][15] - 世界模型赋予系统前瞻推演能力,通过预判候选动作后果来优化动作选择策略,提高任务成功率 [16] - 动作模型能增强视觉理解能力,从而进一步支持世界模型的视觉生成,WorldVLA在生成长视频序列时质量显著优于纯世界模型 [11][21][22] 行业观点与应用前景 - 行业观点认为VLA与世界模型的结合是通往具身智能的答案,一个负责抽象思考,一个负责物理感知 [24] - 该框架由阿里巴巴达摩院、湖畔实验室和浙江大学共同提出,体现了产学研结合的技术发展路径 [1][24]
阿里新研究:统一了VLA和世界模型
量子位· 2025-10-29 17:30
技术框架与核心创新 - 提出WorldVLA,一个将视觉语言动作模型与世界模型相融合的统一自回归动作世界模型框架 [1][4] - 框架旨在解决VLA模型仅将动作作为输出而缺乏深度理解,以及世界模型无法直接生成动作的应用局限 [6] - 采用三套独立分词器对图像、文本和动作进行编码,图像分词器压缩比为16,码本大小为8192,256x256图像生成256个token,512x512图像生成1024个token [8] - 创新性地为动作生成设计了替代注意力掩码,使自回归框架能并行生成多个动作,避免早期错误传递 [11][12] 性能优势与实验结果 - 实验结果表明WorldVLA表现显著优于独立的动作模型与世界模型,体现了二者相互增强效应 [2] - 在未使用预训练的情况下,WorldVLA在基准测试中平均成功率优于离散化OpenVLA模型(256x256分辨率79.1% vs 76.5%,512x512分辨率81.8% vs 76.5%) [19][21] - 模型性能与图像分辨率呈正相关,512x512分辨率相比256x256分辨率带来显著提升(平均成功率从79.1%提升至81.8%) [21][22] - 引入世界模型数据训练后,动作模型在目标、物体、空间和长序列任务上的成功率从基线62.8%提升至78.1% [25] 协同效应与能力增强 - 世界模型通过预测未来图像学习环境物理规律,增强动作模型在精细操作任务中的能力 [14][25] - 动作模型通过增强视觉理解能力,反向支持世界模型的视觉生成质量,在生成50帧长视频时FVD指标从718.6改善至674.1 [17][31][32] - 动作世界模型在复杂场景生成中表现优于纯世界模型,能生成连贯且符合物理规律的后续状态 [32]
超万平方米的人形机器人训练场在京启用
环球网资讯· 2025-09-25 18:04
项目概况 - 人形机器人训练场在北京石景山正式投入运营 占地面积上万平方米 是我国人形机器人产业的关键基础设施 [1] - 训练场1:1还原工业智造 智慧家庭 康养服务和5G融合四大类共16个细分场景 构建超万平方米多元场景训练环境 [3] - 采用"训练+应用+孵化+科普"四位一体生态模式 打造全国具身智能公共数据服务底座平台 [6] 技术能力 - "夸父"人形机器人身高1.66米 通过VR设备和动作捕捉系统学习实用技能 执行成功率达95%以上 [3] - 机器人已掌握20多项原子技能 能够胜任搬运 巡检 导览 配送等多种任务 [3] - 数据采集平台通过采集 清洗 标注 导出四个环节 采用自动+人工+模型三重质量评估 单条数据合格率达到99% [3] - 真机运行数据支持跨本体 跨场景迁移使用 解决行业数据质量差 获取成本高 迁移难度大等痛点 [3][5] 产业价值 - 加速人形机器人"具身大脑"进化 推动在汽车制造 物流搬运等场景规模化应用 [1] - 标准化规模化数据生产为整个行业提供高质量 低成本数据服务 [4] - 真机数据是模型从理论走向现实落地的关键桥梁 解决仿真数据无法复现物理交互细节的问题 [5] - 与多所高校及科研机构建立产学研合作 通过产业基金支持创业孵化与赛事培育 [6] 发展前景 - 为未来万亿级产业发展奠定坚实基础 [1] - 将推进数据标准制定和模型训练工作 构建从单机控制到群体协作的完整训练体系 [4] - 通过产业基金扶持垂域初创团队 打造具身智能操作任务挑战赛和创业启航营 形成赛孵联动机制 [6] - 标志着人形机器人产业迈入规模化 标准化发展新阶段 未来将在工厂 物流园区 养老机构等更多场景实现应用 [7]
上海交大卢策吾:如何破解机器人泛化与鲁棒性
21世纪经济报道· 2025-08-12 18:27
机器人行业技术发展 - 机器人操作认知需解决泛化性和鲁棒性两大核心问题 泛化性要求机器人理解见过和未见过物体 鲁棒性确保任务稳定执行[1] - 限制机器人"大脑"成熟的关键因素在于具身模型架构与数据闭环迭代 而非芯片算力和硬件[1] - 行业对机器人智能化提升保持信心 重点关注数据规模 数据类型和大脑结构选择[1] 穹彻智能技术突破 - 公司开发出泛化性极强的机械臂控制技术 在柔性物体操作和食材处理场景展示技术通用性 如叠衣服和削黄瓜[2] - 提出"数字基因"框架 将具身智能从语言理解推进到说明书级执行 使机器人能按说明书稳定通用地执行任务[2] - 数字基因方法将物体解析为程序化模板 统一表达结构 功能 可供性和操作属性 形成万能说明书[4] - 该方法大幅降低操作数据生成成本 从手工生成的150元/2小时降至0.006元/秒(单GPU) 成本降低1万倍 实现数据资产规模化[4] - 自研端到端力位混合机器人行为模型 实现抓取 折叠 刮削等技能 在食品加工行业落地百套规模[6] 应用场景进展 - 双臂自适应机器人平台可完成开关冰柜 手工舀挖冰淇淋 清洗挖勺等连续复杂任务[6] - 机器人挖冰淇淋球时实时判断厚度和颜色状态 自主规划取料位置与路径 并随表面起伏调整力度[6] - 操作接触时间从秒级短程接触提升至分钟级长程接触 要求每毫秒对结果负责 模型优化难度几何级上升[6] 行业融资环境 - 2024年美国私人AI投资达1091亿美元 中国为93亿美元 差距近12倍[7] - 国内单个具身智能创业公司融资额约为美国同行的七分之一[7] - 与大模型和自动驾驶赛道相比 国内具身智能融资规模仍偏弱[7] 企业发展策略 - 在资金约束下 企业需依靠科学见解和技术路线判断进行聚焦 而非盲目试错[8] - 技术决策需具备顶尖科学素养和前瞻判断力 谨慎选择技术路线[8]
灵宝机器人团队在具身智能新赛道上不断突破 让机器人“心灵手巧”(科技视点·一线探创新)
人民日报· 2025-07-28 06:23
科技创新政策导向 - 习近平总书记强调科技创新是推进中国式现代化的必由之路,需开辟新领域新赛道以塑造发展新动能[1] 具身智能技术发展现状 - 具身智能技术进入关键突破期,目标是让机器人实现"心灵手巧"的互动能力[2] - 灵宝机器人专注研发通用人形机器人和具身智能产品,其技术可实现0.3毫米精度的主板装配[3] - 视觉语言动作模型(VLA)是实现感知与操作融合的重要途径,类似动作版大语言模型[3] 机器人模仿学习技术 - 通过"模仿学习"让机器人掌握技能,减少数据依赖:从需30-40条数据改进至5-10条即可学会抓取[4] - 开发自适应力控夹爪,能根据物体软硬自动调整力度(如抓网球与猕猴桃力度不同)[4] - 系统在"跑分"平台名列前茅,部分性能指标达业内领先水平[5] 工业场景应用突破 - 针对制鞋行业开发柔性化解决方案,训练机器人1小时可掌握新鞋款抓取动作[6] - 采用真机在线强化学习技术,普通工人可用3D鼠标"手把手"教学,降低使用门槛[6] - 解决传送带反光、速度变化等实际问题,算法需持续优化以适应工厂环境[7] 人形机器人研发进展 - 灵宝CASBOT 01人形机器人搭载五指仿生灵巧手,单手重800克负载5公斤,具备双指旋拧等精细操作能力[8] - 集成触觉/力觉/视觉多源感知系统,解决"灵巧"与"作业"两大难题[8] - 技术路线呈现"百花齐放"态势,产业链不断完善推动算法开发[9] 产学研协同创新 - 公司将最新研究成果快速产品化,同时为学术界提供研究平台,形成螺旋式上升的创新循环[9]
学习端到端大模型,还不太明白VLM和VLA的区别。。。
自动驾驶之心· 2025-06-19 19:54
视觉语言模型在自动驾驶领域的应用 - 大模型技术正在智能驾驶领域快速落地,VLM(视觉语言模型)和VLA(视觉语言动作模型)成为关键技术方向 [2] - VLM侧重基础能力如检测、问答、空间理解和思维链推理,VLA更关注动作生成如轨迹预测 [4] - 学习路径建议先掌握VLM再扩展到VLA,VLM结合扩散模型可实现多模态轨迹预测 [4] 技术社区与资源 - 知识星球提供自动驾驶全栈学习路线图、硬件/代码资料及行业招聘信息,已吸引华为天才少年等专家加入 [4] - 社区覆盖四大板块:技术分类汇总、顶级学者直播、求职资源、问题解答,形成"课程+硬件+问答"闭环 [5] - 目标3年内建成万人规模的智能驾驶与具身智能社区,已与多家企业建立学术-产品-招聘全链路合作 [4] 前沿技术方向与数据集 视觉大语言模型 - 汇总10个Awesome资源库,涵盖智能交通LLM、AIGC、CLIP提示学习、模型安全等领域 [6] - 基础理论包括预训练、迁移学习、知识蒸馏三大方向 [7][10][11] 数据集规模 - VLM预训练数据集从SBU Caption(2011年1M图文)发展到LAION5B(2022年5B图文) [13] - 自动驾驶专用数据集包括NuScenes(2020年多模态)、Waymo Open Dataset(2020年)等19个主流数据集 [19] 关键技术应用 智能交通系统 - 2022-2023年出现多模态车辆检索系统,支持自然语言查询跟踪车辆 [21] - Tem-adapter等模型将图文预训练迁移到视频问答任务 [21] 自动驾驶感知 - VLPD(2023)通过视觉语言自监督提升行人检测 [22] - OpenScene(2023)实现开放词汇的3D语义分割 [22] 轨迹预测与规划 - GPT-Driver(2023)、DRIVEVLM(2024)等模型将LLM融入运动规划 [23] - 扩散模型应用显著,如DiffusionDrive(端到端驾驶)、MagicDriveDiT(高分辨率视频生成) [37] 世界模型研究进展 - 2024年涌现DriveWorld、Vista等模型,实现4D场景理解与高保真可控生成 [30] - 核心突破包括:InfinityDrive突破时间泛化限制、DriveDreamer4D增强4D重建 [30] - 17篇顶会论文覆盖物理仿真、多模态LLM融合等方向 [28][29][30] 端到端自动驾驶 - 两大资源库汇总200+篇论文,跟踪E2E驾驶最新进展 [39][43] - 关键挑战包括长尾分布处理、多任务学习、安全验证等 [43][53] - SparseAD(稀疏query范式)、GenAD(新范式)等2024年新方法提升性能25% [46]
具身智能:一场需要谦逊与耐心的科学远征
Robot猎场备忘录· 2025-05-20 13:01
具身智能的核心观点 - 具身智能为机器人领域注入新活力,有望突破性能上限,需保持开放态度避免派别之争 [1] - 具身智能是跨学科产物,依赖材料科学、生物力学等多领域协同突破,而非单一技术路径 [2][6] - 当前具身智能处于早期阶段,人形机器人能力仅相当于自动驾驶"L0"水平,硬件和算法均未成熟 [7] 学科与技术发展 - 传统机器人学的"特殊任务研究"对具身智能有间接贡献,如波士顿动力动态平衡算法、蛇形机器人柔性驱动技术 [2] - 技术迭代呈现沉积效应,如GAN框架仍影响当前AI领域,VLA模型可能被更高效方案取代但会留下技术遗产 [5] - 纯软件算法难以构建长期壁垒,需结合工程实践、材料工艺等"脏活累活"形成护城河 [12] 通用性与具体性 - 通用智能需建立在具体问题钻研基础上,如达芬奇手术机器人亚毫米级操作依赖生物组织参数积累 [3] - 产业需求如汽车线束整理、半导体封装高精度要求等"不性感"的工程细节是锤炼智能的关键场景 [3] - 人形机器人形态优势仅限于人类环境适配,物流/农业等领域专用非人形机器人更具成本效率 [11] 技术路径与产业实践 - VLA技术路径存在争议,儿童和乌鸦案例显示操作能力可独立于语言系统,当前大模型性价比低 [8][9] - 短期优先采用learning与model结合方法,长期纯learning或成主流但需脑科学等学科突破支持 [10] - 工业界更认可model-based解决方案因其稳定可控,端到端大模型并非客户关注重点 [10] 行业动态与案例 - 人形机器人马拉松比赛暴露当前技术局限,多数需人工干预且电机发热问题突出 [7] - 行业存在同质化重复项目风险,需警惕过度追求"酷炫"而忽视经济性 [11] - 华为、智元机器人等公司加码人形机器人赛道,全栈自研和跨领域协作成为焦点 [15][16][18]