InternVL3

搜索文档
亿级短视频数据突破具身智能Scaling Law!Being-H0提出VLA训练新范式
量子位· 2025-07-24 15:28
具身智能技术突破 - 具身智能领域当前技术重点在于让机器人从看懂世界到理解意图再到做出动作 [1] - 真机数据匮乏导致视觉-语言-动作(VLA)模型发展受限 现有数据规模与上亿级训练样本需求相差三个数量级 [2] - 北京大学团队利用人类操作视频提取手部运动轨迹 构建了规模达亿级的训练数据集 [3] Being-H0模型创新 - 提出"物理指令微调"方法框架 实现人类手部运动到机器人动作空间的精确映射 [5] - Being-H0是首个基于人类视频手部数据的大规模预训练VLA模型 [6] - 模型假设人类手部运动是最完备的操作执行器 机器人末端执行器均可视为其子集 [6] 数据与方法创新 - 利用短视频时代易获取的人类视频数据 避免仿真环境数据采集的"虚拟-现实"差异问题 [8] - 构建规模达1.5亿的UniHand数据集 整合11个开源数据源的多模态数据 [17][18][20] - 仅使用250万条样本预训练就展现出显著性能提升 [21] 技术框架设计 - 采用分部位动作编码方案 手腕和手指分别设计专用编码器 动作姿态重建误差控制在毫米级 [12] - 物理空间对齐技术消除多源数据在相机参数、观测视角等方面的差异性 [13] - 建立从人类动作到机器人操作的高效转换通道 [14] 性能验证 - 在Pick-Place-Toy等7项任务中 Being-H0表现优于GR00T N1.5和InternVL3模型 [22][23] - 在相同数据量条件下 Being-H0始终展现出稳定的性能优势 [25] - 显著降低真机数据需求 25%数据量即可达到其他模型100%数据量的性能 [25][27] 行业影响 - 突破数据封锁桎梏 为机器人灵巧操作研究开辟新范式 [30] - 团队持续攻坚具身智能大模型、灵巧操作、全身运动控制等核心技术 [31]
Being-H0:从大规模人类视频中学习灵巧操作的VLA模型
具身智能之心· 2025-07-23 16:45
研究背景与动机 - 大语言模型和多模态模型在文本、图像领域取得突破,但机器人领域缺乏类似"ChatGPT时刻"的变革 [3] - 现有视觉-语言-动作模型(VLAs)在复杂灵巧操作任务中表现不佳,主要受限于数据问题:合成数据存在"仿真到真实"鸿沟,远程操作演示规模小、多样性不足 [3] - 人类视频蕴含丰富操作数据,但面临四大挑战:数据异质性、手部运动量化、跨模态推理、机器人控制转移 [3] 核心方法:物理指令调优 - 提出物理指令调优范式,通过"预训练-物理空间对齐-后训练"三阶段将人类手部运动知识迁移到机器人操作 [4] - 预训练阶段以人类手为理想操纵器,在大规模人类视频上训练基础VLA,学习视觉、语言到运动的映射 [6] - 物理空间对齐阶段通过弱透视投影对齐和视角不变运动分布平衡策略统一多源数据的3D推理 [10][12] 关键技术:运动token化与跨模态融合 - 采用分组残差量化(GRQ)进行部分级运动token化,将手部运动分解为手腕和手指两部分分别处理,保留毫米级精度 [14][18] - 跨模态融合通过共享注意力机制实现视觉、语言和运动token的统一交互,视觉token替换文本占位符,运动token作为结构化块插入序列 [17][23] UniHand数据集 - 构建包含44万任务轨迹、1.3亿帧视频、1100多小时内容的UniHand数据集,生成1.65亿运动-指令对 [21] - 数据集整合三类数据源:高精度运动捕捉数据、VR录制数据、伪标注真实场景视频 [24] - 采样250万样本(UniHand-2.5M)用于预训练,平衡任务和数据源分布 [21] 实验结果 - 14B模型在运动生成任务中表现最优:MPJPE 6.87mm(头部)、8.11mm(尾部),MWTE 5.19mm(头部)、7.41mm(尾部) [25] - 长序列生成中,14B模型误差累积更少:短期(2-5s)MPJPE 7.43-8.39mm,长期(6-10s)MPJPE 7.98-9.72mm [27] - 真实机器人操作任务成功率显著提升:在"拾取unseen玩具"和"杂乱场景拾取"中分别达65%和60% [28]
5700问答对全面评估拷问AI空间感!最新空间智能评测基准来了丨浙大&成电&港中文
量子位· 2025-06-02 12:13
视觉语言大模型的空间推理能力 - 当前视觉语言大模型(VLMs)在大规模图文数据中学习到的空间信息是片段化的,仅限于静态视角的理解,缺乏多维度、多视角的空间推理能力 [1] - 面对需要多视角空间推理的任务时,模型表现不佳,缺乏空间感与换位思考能力 [2][20] - 具备稳健的空间推理能力与视角理解能力的AI系统才能成为与人类协作的智能体 [3] ViewSpatial-Bench基准体系 - 研究团队提出首个系统评估VLM多视角多任务下空间定位能力的基准体系ViewSpatial-Bench,涵盖五种任务类型,覆盖相机和人类双重视角 [4][7] - 基准包含5700个问答对,通过自动化3D标注流水线生成精确方向标签,覆盖丰富3D场景 [4][16] - 五大任务包括:物体相对方向识别、人物视线方向识别(相机视角),以及从人类视角出发的三类任务(物体相对方向识别、人物视线方向识别、场景模拟的相对方向识别) [9][10][11][12][13][14] 主流模型的表现评估 - 评估显示GPT-4o、Gemini 2.0等主流模型在空间关系理解上表现不足,整体准确率不高 [19] - 模型在摄像头视角下的人物面朝方向判断任务平均准确率仅为25.6%,远低于物体相对方向判断的38.9%,但在人物视角下趋势反转 [22] - 大多数模型在人物视角任务上表现略优于摄像头视角,如GPT-4o在人物视角平均准确率为36.29%,高于摄像头视角的33.57% [25] Multi-View Spatial Model(MVSM) - 研究团队开发MVSM专门用于跨视角空间理解优化,采用自动化空间标注框架生成约43000个高质量样本 [27][28] - MVSM相比骨干模型Qwen2.5-VL实现46.24%的绝对性能提升,验证针对性训练的有效性 [5][28] - 在VSI-App评估中,MVSM在室内场景表现提升20%,户外场景提升4.00%,展示处理动态轨迹和人机交互场景的能力 [32] 研究意义与未来方向 - ViewSpatial-Bench和MVSM为多模态模型空间理解能力提供系统评估工具,重构视角采择建模方式 [33] - 研究揭示当前训练语料在视角分布上存在结构性不平衡,为未来数据构建和模型优化指明方向 [26] - 更聪明的空间感知是下一代机器人与多模态助手的关键一步 [34]
全面评估多模态模型视频OCR能力,Gemini 准确率仅73.7%
量子位· 2025-05-30 15:10
多模态大模型在视频OCR领域的挑战与进展 - 多模态大模型(MLLM)在静态图像OCR任务中表现卓越 但在动态视频OCR任务中面临严峻挑战 主要受限于运动模糊、光影变化、视角切换等动态因素以及复杂的时序关联[1][2] - MME-VideoOCR评测框架旨在系统评估MLLM在视频OCR中的感知、理解和推理能力 构建了包含1,464个精选视频片段和2,000条人工标注问答对的高质量数据集[3][4] - 视频OCR任务难度远超静态图像 需解决文字信息形式复杂多样、时空视觉-文本关联建立以及语义解析与推理判断等核心问题[5] 评测体系设计与数据构建 - 设计10大任务类别和25个子任务 重点考察时序理解、信息整合及复杂推理等高阶能力 超越基础识别维度[6][15] - 数据集覆盖生活记录、影视娱乐、教育科普等多元化场景 融入运动模糊、低分辨率、复杂背景等真实世界复杂因素 并特别设计需要跨帧理解的时序性任务[10] - 额外引入短视频、弹幕视频及AIGC视频等新兴类型 增强数据全面性 共收集1,464个视频和2,000条样本[11][12] 主流模型性能表现 - 评测18个主流MLLM(含闭源与开源模型) 顶尖闭源模型Gemini-2.5 Pro整体准确率仅73.7% 显示当前技术存在明显瓶颈[7][19] - 开源模型表现显著落后 多数准确率不足60% 与闭源模型差距明显 其中Qwen2.5-VL(72B)以69%准确率位列开源第一[19][20] - 模型规模与性能正相关 InternVL3从8B到78B版本准确率提升7.4个百分点 显示参数扩大对能力提升的有效性[19] 核心能力短板与优化方向 - 时序处理成为关键瓶颈 模型在单帧识别表现较好 但对长时序信息整合和文字动态变化理解能力显著下降[21] - 时空推理能力普遍薄弱 且存在过度依赖语言先验知识而忽视视觉信息的问题[21][22] - 实验表明高分辨率视觉输入和完整时序帧覆盖对性能提升至关重要 但需平衡信息量与目标关注度的矛盾[23]