Workflow
视觉-语言模型
icon
搜索文档
阿里千问推出原生视觉-语言模型Qwen3.5-397B-A17B
智通财经网· 2026-02-17 08:49
模型发布与核心性能 - 阿里千问于2月16日正式发布Qwen3.5系列,并推出该系列首款模型Qwen3.5-397B-A17B的开放权重版本 [1] - 该模型为原生视觉-语言模型,在推理、编程、智能体能力与多模态理解等全方位基准评估中表现优异 [1] - 模型采用创新的混合架构,将线性注意力与稀疏混合专家相结合,总参数量达3970亿,但每次前向传播仅激活170亿参数,实现了出色的推理效率 [1] - 相对于前代Qwen3系列模型,Qwen3.5的性能提升主要源于对各类强化学习任务和环境的全面扩展,更强调环境的难度与可泛化性 [1] 技术架构与效率 - 模型通过异构基础设施实现高效的原生多模态训练,在视觉与语言组件上解耦并行策略,避免统一方案带来的低效 [2] - 利用稀疏激活实现跨模块计算重叠,在混合文本-图像-视频数据上相比纯文本基线达到近100%的训练吞吐量提升 [2] - 采用原生FP8流水线对关键运算采用低精度,并通过运行时监控在敏感层保持BF16精度,实现了约50%的激活显存降低与超过10%的加速 [2] - 技术优化支持模型稳定扩展至数万亿 token 的训练规模 [2] 功能与可用性 - 模型将支持的语言与方言从119种扩展至201种,为全球用户提供更广泛的可用性与更完善的支持 [1]
华科&小米SparseOccVLA:统一的4D场景理解预测和规划,nuScenes新SOTA......
自动驾驶之心· 2026-01-19 11:15
文章核心观点 - 由华科、小米和清华AIR团队提出的SparseOccVLA模型,通过创新的稀疏占据查询,成功统一了自动驾驶中的视觉语言模型与语义占据表示,在场景理解、占据预测和轨迹规划等核心任务上均展现出卓越性能 [2][3][32] 背景与挑战 - 自动驾驶领域,视觉语言模型擅长高层语义理解与推理,而语义占据能提供精细、结构化的空间细节,但两者长期独立发展,缺乏有效融合 [2][4] - 传统视觉语言模型在处理自动驾驶多视角视频流时面临token数量爆炸和时空推理能力受限的问题 [2][4] - 语义占据表示过于稠密,难以高效地与视觉语言模型集成,且其低水平表征难以对齐到高水平的语言空间 [2][4][9] 方法创新 - SparseOccVLA的核心是采用一个轻量级的稀疏占据编码器,生成紧凑但信息量极高的稀疏占据查询,作为连接视觉与语言的唯一桥梁 [2][3][14] - 这些稀疏查询被对齐至语言空间,并由大语言模型进行统一推理,实现场景理解与未来占据预测 [3][14] - 模型提出了一种LLM引导的Anchor-Diffusion规划器,通过解耦的锚点打分与去噪过程以及跨模型的轨迹条件融合机制,提升规划性能与稳定性 [3][20][22] - 稀疏占据查询仅关注真实空间中的实体,信息密度和token利用率极高,仅需数百token即可表征完整场景,远低于基于BEV的方法所需的数千token,训练和推理高效 [17][18][23] 实验结果 - 在OmniDrive-nuScenes的场景理解任务中,SparseOccVLA的CIDEr指标达到0.796,相较于当前最优方法HERMES的0.741,实现了7%的相对提升 [23] - 在Occ3D-nuScenes的未来3秒语义占据预测任务中,SparseOccVLA的平均mIoU达到13.71,超越了之前的SOTA方法Sparse World的13.20 [23][24] - 在nuScenes的开环规划基准测试中,SparseOccVLA仅使用稀疏占据查询作为感知输入,即取得了当前最优性能,证明了其强大的泛化潜力 [25][26] - 消融实验表明,移除占据编码器监督会导致语言指标显著下降,移除3D位置编码则模型无法收敛,证明了显式几何语义引导和空间拓扑结构建模的重要性 [27] 技术优势与意义 - SparseOccVLA能同时准确识别远处的行人、车辆等几何物体,以及红绿灯状态、车道线等非几何元素,得益于其完全端到端的设计保留了原始视觉信号 [31] - 该方法提供了一个超越传统基于MLP、Q-Former和BEV的视觉-语言对齐新范式,有望促进跨领域研究并推动自动驾驶社区发展 [32]
Physical Intelligence内部员工分享(从数采到VLA再到RL)
自动驾驶之心· 2025-12-25 17:33
文章核心观点 - 截至2025年12月,机器人学习领域的主流技术栈完全基于行为克隆,其核心挑战在于处理分布外状态、任务不确定性以及动作误差累积,而超越行为克隆的强化学习等方法在真实世界应用中仍面临仿真与现实差距、高质量价值函数学习等重大障碍,行业未来发展将依赖于更高效的人类示范系统、视频模型骨干以及世界模型的进步[8][41][44][46][72][74] 2025年机器人学习栈的剖析 - 当前所有机器人学习系统本质上都是行为克隆系统,通过监督学习模仿人类提供的接近最优的任务演示,预测动作片段[8] - 行为克隆的训练数据主要来源于三种人类演示方式:主从控制方案、手持设备示范以及直接的人类示范视频[9][10] - **主从控制方案**:使用控制器远程操控机器人,优点是能记录全套传感器信息且动作在运动学上可行,缺点是操作速度可能比人类直接操作慢10倍,操作员需要数周练习,且规模化数据采集成本高昂[11][12] - **手持设备示范**:人类操作者手持配备低成本传感器套件的设备完成任务,通过SLAM和逆运动学重建状态,优点是操作更易上手、速度更快、部署成本更低,缺点是存在传感器噪声和域差距,且无法保证动作的动力学可行性[13][14][15][20] - **直接人类示范**:利用YouTube或工厂工人佩戴摄像头记录的视频数据,优点是数据规模巨大、多样且以人类自然速度产生,缺点是在重建状态和动作时存在巨大差距,存在视角不一致和运动学不可行等问题[16][17][21] 行为克隆中的难题与解决方案 - 行为克隆策略在实际执行时会因环境微小变化、任务本身的不确定性/多模态性以及动作预测误差的递归累积而逐渐偏离,进入训练分布之外的状态[19][22][23] - 解决分布外状态性能问题的核心方法不是仅依赖专家示教数据,而是需要引入DAgger风格的方法,即训练模型学会从失败状态中恢复[28][30] - 构建有效的DAgger恢复数据是一门高度迭代的“艺术”,需要精心筛选数据以避免模型学会进入失败状态,这个过程繁琐、耗时且依赖人类的强判断力[32][33][34][35] - DAgger数据迭代通常基于预训练好的基础策略进行,投入足够精力后策略可以变得出乎意料地鲁棒,但随着鲁棒性提升,评估性能所需时间会急剧增加,且离线指标与真实性能相关性弱[36][37] - 行为克隆策略难以超越人类示范的速度,直接加速执行会给控制系统带来压力并导致物理交互错误,筛选最快示范或对速度条件化建模都无法让策略速度超过人类本身[38][39][40][42] 超越行为克隆的挑战 - 行为克隆系统受限于人类示教者提供数据的速度以及修复失败所需的大量人工投入,行业理想是发展能够自我提升、自主探索并达到超人速度的机器人系统[41][43][44][55] - 大语言模型中的强化学习成功得益于其能从完全相同的状态无限次执行以及拥有强大的基础策略,这使得在线、on-policy的强化学习可行,而机器人领域不具备这些条件[47][48][49][53] - **仿真中的强化学习**:面临严重的仿真到现实差距问题,仿真器在物理建模、视觉外观等方面往往是现实世界的糟糕仿制品,完全在仿真中训练的策略迁移到真实世界时表现通常糟糕[58][59] - **真实世界中的强化学习**:避免了仿真到现实的差距,但直接从策略执行中学习改进面临障碍,核心难点在于必须回答反事实问题,而机器人无法从同一状态反复尝试不同动作[63][64][65] - 学习高质量的世界模型或Q/V函数来评估反事实结果仍然是一个开放的研究问题,目前尚未有工作能很好建模灵巧操作任务关心的环境交互动力学,近期方法如优势加权回归仅展示出相较于纯行为克隆的小幅提升[60][61][68][69][70][71] 对机器人学习未来的预测与建议 - **技术预测**:未来2年内,视觉语言动作模型将被视频模型骨干取代;10年内,世界模型将能很好地模拟通用开放世界交互,策略可通过在世界模型中“抽取”获得;传统仿真引擎将成为世界模型的数据生成器,但核心是端到端学习的;接近专家级的示范数据对微调世界模型仍至关重要;真实机器人执行数据仍是实现超人级性能所必需的[74] - **行业建议**:人类示范将长期持续重要,构建能有效降低痛点的软硬件一体人类示范系统是极具价值的创业或合作方向[74] - **创业方向分析**:数据标注是高度商品化、人力成本套利的业务,缺乏技术护城河;售卖预训练数据需要证明能提升客户模型性能,这既是运营也是技术挑战;评估对模型改进闭环至关重要,必须内部完成,无法外包;由于传感器和任务目标差异巨大,具身AGI领域不会出现通用的数据平台[74]
机器人学习现状!Physical Intelligence内部员工分享(从数采到VLA再到RL)
具身智能之心· 2025-12-21 00:03
文章核心观点 - 截至2025年12月,机器人学习领域的主流技术栈是基于人类专家演示的纯粹行为克隆系统,但其存在分布外状态、误差累积、速度上限等固有局限 [5] - 为提升行为克隆策略的鲁棒性,行业普遍采用DAgger风格的方法,通过迭代收集失败恢复数据来修正策略,但该过程高度依赖人工、耗时且难以规模化 [26][29][31] - 强化学习被视为实现机器人自我改进的理想路径,但由于无法像大语言模型那样从同一状态无限探索,且缺乏强大的基础策略,在真实机器人应用中尚未成功 [40][41][54] - 未来突破的关键在于发展能够高质量模拟通用开放世界交互的“世界模型”,并结合专家示范与真实机器人运行数据,以实现超人性能 [58][73] 现代机器人学习技术栈剖析 - **数据收集方案**:主要依赖三种方式获取人类演示数据 [7] - **主从控制方案**:如GELLO、ALOHA,使用控制器直接远程操控机器人,数据运动学可行但采集速度比人类徒手慢可达10倍,且规模化成本高 [8][9][10] - **智能演示手套**:如通用操作接口,人类手持设备完成任务,通过SLAM和逆运动学重建状态与动作,部署成本更低但会引入严重的域差距和运动学可行性问题 [11][12][18] - **直接人类示范**:利用YouTube或工厂工人佩戴摄像头记录的数据,规模巨大且多样,但存在巨大的状态与动作重建差距,且轨迹往往在运动学上不可行 [12][13][19] 行为克隆系统的核心挑战与应对 - **根本难题**:行为克隆策略在执行时会因环境微小变化、任务不确定性及动作预测误差的递归累积而逐渐偏离,进入训练分布之外的状态 [16][17][23] - **关键应对方法**:采用DAgger方法,通过迭代收集策略在失败状态下的恢复数据,并将这些数据纳入训练,以将策略“拉回”到已知分布 [25][26] - **DAgger的实施痛点**: - 是一个高度迭代、依赖人工判断的繁琐过程,需要与各种失败模式“打地鼠” [29][31] - 通常在预训练好的基础策略上进行,但更新基础模型会清空之前迭代形成的“手感” [32] - 随着策略变鲁棒,评估其性能所需的时间急剧增加,离线指标与真实性能相关性弱 [33][34] 当前技术的能力边界与尝试 - **速度瓶颈**:行为克隆策略的最理想执行速度无法超过人类示范本身,尝试对速度进行条件化建模或高频执行均效果有限或带来新问题 [36][37][47] - **强化学习的应用困境**: - **与大语言模型的差异**:机器人无法从同一物理状态无限次执行探索,也缺乏一个非零成功率的基础策略,使得在线强化学习不可行 [45][46][54] - **仿真中的强化学习**:受限于仿真器与真实世界的巨大差距,除运动控制等特定任务外,在操作任务中收效有限 [56][57] - **真实世界中的强化学习**:核心障碍是无法回答反事实问题,即比较同一状态下不同动作的后果,需要依赖难以学习的Q/V函数或世界模型来“想象” [63][65][70] - **近期进展示例**:Physical Intelligence发布的pi*0.6方法使用优势加权回归变体,相比纯行为克隆仅有小幅提升,且许多任务仍依赖人工DAgger数据 [71] 对未来发展的预测与行业建议 - **技术发展预测**: - 2年内:视觉语言动作模型将被视频模型骨干取代 [73] - 10年内:世界模型将能很好模拟通用开放世界交互,策略可通过在世界模型中“抽取”获得 [73] - 接近专家级的示范数据对微调世界模型仍至关重要,但实现超人性能仍需真实机器人运行数据 [73] - **创业与商业建议**: - 构建能有效降低痛点的软硬件一体人类示范系统是可靠且有价值的路径 [74] - 数据标注是高度商品化的人力成本套利业务,预训练数据售卖需证明能提升模型性能,且并非所有机器人数据都有用 [75] - 评估是模型改进的关键闭环,必须在公司内部完成,无法外包 [73] - 在具身AGI领域,不可能存在通用的“一统天下”的数据平台 [73]
美的团队分享!在七个工作中找到推理到执行,构建通用灵巧VLA模型的钥匙
具身智能之心· 2025-09-05 08:45
核心观点 - 构建持续进化且通用的视觉-语言-动作模型 通过多模态基座模型建立感知与动作联合框架 扩展至复杂场景与灵巧操作任务 应对柔性物体与精细操作挑战 提升通用灵巧能力 [6] - 深度融合视觉语言模型的开放世界理解与逻辑能力 融入大模型先验与语义推理 增强在未知任务中的高层规划与泛化能力 [6] 技术模型发展 - DexVLA模型通过插入扩散专家实现通用机器人控制 [5] - ChatVLA-2模型具备开放世界具身推理能力 基于预训练知识 [5] - ChatVLA模型统一多模态理解与机器人控制 [5] - Diffusion-VLA模型通过自生成推理实现可泛化可解释的机器人基础架构 [5] - CoA-VLA模型通过视觉-文本赋能链提升视觉-语言-动作模型性能 [5] - PointVLA模型将三维世界信息注入视觉-语言-动作框架 [5] - TinyVLA模型致力于快速数据高效的机器人操作视觉-语言-动作架构 [5] 能力拓展方向 - 构建VLA基座模型作为技术基础架构 [7] - 拓展VLA模型能力边界至更复杂应用场景 [8] - 提升VLA模型泛化能力以适应未知任务环境 [8] - Spec-VLA框架专为推理加速设计 在保持精度同时提升速度 [10] 应用场景深化 - 灵巧手设计成为打通手-眼-脑感知闭环的关键技术 [10] - 跨实体世界模型助力小样本机器人学习 [10] - 应对柔性物体与精细操作等挑战性任务 [6] - 从开放世界语义推理延伸至真实环境动作执行 [6]
ICCV 2025 Highlight | 3D真值生成新范式,开放驾驶场景的语义Occupancy自动化标注!
机器之心· 2025-08-29 08:15
研究团队与背景 - 研究成果由北京大学王选计算机研究所VDIG实验室开发,第一作者为博士生周啸宇,通讯作者为博士生导师王勇涛副研究员[2] - 实验室在IJCV、CVPR、AAAI、ICCV、ICML、ECCV等顶会发表多项重量级成果,多次荣获国内外CV领域竞赛冠亚军奖项[2] - 论文已被ICCV 2025录用为Highlight[2] 技术框架与创新 - AutoOcc是开放自动驾驶场景的高效高质量三维语义占据栅格真值标注框架,无需人类标注即可超越现有自动化标注管线[2][5] - 利用视觉-语言模型生成语义注意力图描述场景并动态扩展语义列表,通过自估计光流模块处理动态物体[5][17] - 提出具有开放语义感知的3D高斯表示(VL-GS),实现自动驾驶场景的完整三维几何和语义建模[6][17] - 支持环视驾驶场景图像序列输入,可选LiDAR点云提供几何先验约束[13] - 相比基于点云体素化和语义投影的方法,具备更强鲁棒性和开放式语义标注能力[21] 性能表现 - 在Occ3D-nuScenes数据集上超越现有最先进的语义占据栅格预测和真值生成模型[20][21] - 在SemanticKITTI跨数据集评估中展现卓越零样本泛化能力,mIoU-base指标达17.03[20][22][23] - 在极端天气条件(雨天/雾天/黑夜)下实现完整语义占据标注,反光路面区域也能正确重建[23][27] - 计算效率显著提升:仅需约30 GPU小时和5.0G内存,相比SurroundOcc的1000+ GPU小时和73G内存大幅优化[24][25] 行业应用价值 - 解决传统人工标注管线需4000+人时的高成本问题,以及极端环境下的误标注问题[8][25] - 突破有监督方法对大规模人工标注数据的依赖,显著提升泛化能力[8][22] - 支持开放词汇三维语义感知,可动态扩展语义类别而不受预设类别限制[5][22]
ExploreVLM:基于视觉-语言模型的闭环机器人探索任务规划框架
具身智能之心· 2025-08-20 08:03
研究背景与核心问题 - 具身智能发展推动机器人成为日常助手 要求机器人具备高层指令解读 动态环境感知和实时计划调整能力 [3] - 视觉-语言模型(VLMs)因融合视觉理解与语言推理能力 成为机器人任务规划的重要方向 [3] - 现有VLMs方法存在三方面局限:交互式探索能力不足 感知精度有限 计划适应性差 [6] 核心框架设计 - ExploreVLM采用"感知-规划-执行-验证"闭环设计解决现有问题 [5] - 框架流程包括:场景感知模块提取目标中心空间关系图 双阶段规划器生成探索和完成阶段子目标 执行验证器生成反馈 规划器动态调整计划 [6] 关键模块解析 - 目标中心空间关系图构建结构化场景表示:节点标注物体语义属性 有向边表示物体间空间关系 [8] - 构建流程分两步:GroundedSAM2分割图像并标注物体类别 VLM推理空间关系将2D图像转化为语言可理解的3D空间结构 [9] - 双阶段自反思规划器分离"未知信息探索"与"目标达成":探索阶段生成探索子目标及动作 完成阶段生成达成最终目标的动作序列 [10][12] - 自反思机制通过链-of-thought推理修正计划 解决LLM幻觉问题:验证目标有效性 检查动作逻辑一致性 处理障碍物 [10][12] - 执行验证器采用逐步验证机制:判断动作是否成功 验证子目标是否达成 若失败返回具体原因触发重新规划 [14][17] 实验验证 - 实验在真实机器人平台(UR5机械臂+Robotiq夹爪+Intel RealSense相机)进行 设计5个递增复杂度任务 [15] - 平均成功率:ExploreVLM达94% 远超ReplanVLM的22%和VILA的30% [16][19] - 各任务成功率:Task1 100% Task2 100% Task3 100% Task4 90% Task5 80% [19] - 消融实验显示移除核心模块后性能大幅下降:无空间关系图成功率降至30% 无双阶段规划器降至10% 无执行验证器降至0% [19] 优势分析 - 空间关系图提升场景理解精度 准确识别障碍物和物体 [21] - 双阶段规划解决探索性任务困境 通过探索准确定位目标 [21] - 自反思修正逻辑错误 避免不合理动作序列 [21] - 逐步验证增强抗噪声能力 及时检测失败并重试 [21] 与传统方法对比 - 传统TAMP方法缺乏自然语言与视觉整合 适应性有限 [22] - VILA直接用GPT-4V生成计划 但缺乏结构化感知 探索与执行脱节 [22] - ReplanVLM依赖阶段末反馈 误差易累积 [22] - RoboExp需依赖先验物体知识 探索步骤冗余 [22]
小鹏最新!NavigScene:全局导航实现超视距自动驾驶VLA(ACMMM'25)
自动驾驶之心· 2025-07-14 19:30
自动驾驶技术突破 - 小鹏汽车团队提出NavigScene解决方案,通过连接局部感知和全局导航信息弥补自动驾驶系统关键差距,实现超视距推理能力[2] - NavigScene包含两个子集:NavigScene-nuScenes和NavigScene-NAVSIM,通过自然语言指令模拟人类驾驶环境,整合Google Maps等导航工具的BVR(超视距)信息[9][14] - 系统采用三种创新方法:导航引导推理(NSFT)、导航引导偏好优化(NPO)和导航引导视觉-语言-动作模型(NVLA),显著提升感知、预测和规划任务性能[10][12] 技术实现细节 - 视觉生成模块利用Google Maps API合成导航视频,通过Direction API获取路线、Static Map API采集连续图像,Distance Matrix API计算行驶数据[16] - 文本生成采用三重相似度指标(交叉路口相似度Sinter、距离相似度Sdist、词汇相似度Sword)选择最优导航描述,权重分配体现方向准确性优先原则[18] - NVLA模型通过可学习MLP解决VLM高维输出(如LlamaAdapter的32,000维)与BEV特征(典型256维)的维度不匹配问题,实现特征融合[28][29] 性能验证数据 - 问答任务中,整合NavigScene的VLMs在BLEU-4、METEOR等指标全面提升,Qwen2.5-7B表现最佳(BLEU-4从51.65提升至55.13)[32][47] - 端到端驾驶测试显示,SparseDrive模型整合Qwen2.5-7B后检测mAP提升0.04,闭环规划中DAC指标达96%,优于基线系统84.2%[40][41] - 跨城市泛化实验证明,NPO技术使波士顿→新加坡场景的平均碰撞率从26.83%降至22.55%,显著增强陌生环境适应能力[55] 行业应用前景 - 技术方案已覆盖感知(3D检测、BEV)、预测(轨迹分析)、规划(闭环控制)全链条,形成30+技术栈的完整学习体系[65] - VLA/VLM算法工程师岗位需求激增,顶尖企业为博士人才提供90-120K薪资,反映技术商业化加速[64] - 行业社区规模达4000人,涵盖300+企业与科研机构,显示技术生态快速扩张[65]
One RL to See Them All?一个强化学习统一视觉-语言任务!
机器之心· 2025-05-27 12:11
视觉三重统一强化学习系统V-Triune - 核心目标是使用单一训练流程联合训练视觉-语言模型在视觉推理和感知任务上 [6] - 包含三个核心组件:样本级数据格式化、验证器级奖励计算、数据源级指标监控 [8] - 引入动态IoU奖励机制为感知任务提供自适应反馈 [22] 样本级数据格式化 - 在样本级别定义奖励配置实现细粒度控制 [13] - 使用Hugging Face datasets作为统一接口 [15] - 支持将多样化数据集无缝集成到统一训练流程 [16] 验证器级奖励计算 - 采用异步客户端-服务器架构实现模块化设计 [17] - 将奖励计算与主训练循环解耦提高灵活性 [19] - 使用MathVerifyVerifier和DetectionVerifier两种验证器 [23] 数据源级指标监控 - 按数据源分别记录关键性能指标实现精细化追踪 [21] - 监控指标包括各源奖励值、感知任务IoU/mAP等 [24] - 有助于识别问题数据源并支持针对性调试 [21] 动态IoU奖励机制 - 通过动态调整IoU阈值平衡学习效率和精度 [26] - 训练初期使用宽松阈值(0.85)后期采用严格阈值(0.99) [26] - 避免冷启动问题同时确保最终高性能 [26] 训练方法优化 - 冻结ViT参数防止梯度爆炸 [34] - 过滤虚假图像特殊token保持训练稳定性 [38] - 构建CoT提示词池减少提示差异影响 [39] 实验表现 - 在MEGA-Bench Core基准上7B模型提升+3.2 32B模型提升+14.1 [48] - 在MathVista基准上实现超过5%的性能提升 [57] - COCO检测任务上7B模型单目标检测提升+12.17 mAP@50 [58]