具身智能之心

搜索文档
穆尧团队最新!Discrete Diffusion VLA离散扩散引入VLA,支持精确动作建模和一致性训练
具身智能之心· 2025-09-01 18:00
文章核心观点 - 离散扩散视觉-语言-动作模型(Discrete Diffusion VLA)通过引入离散扩散技术至动作解码,解决了现有自回归模型速度慢和连续扩散模型训练复杂的问题,实现了视觉、语言和动作三模态的统一处理,并在多个机器人任务中展现出显著性能优势 [1][6][7] 技术方案与架构 - 采用单一Transformer架构统一处理多模态输入,包括视觉token(通过SigLIP+DINOv2 ViT编码)、语言token(通过Llama 2 tokenizer编码)和离散化动作token,无需额外扩散模块 [6][12][13] - 训练阶段通过随机掩码动作token并计算交叉熵损失,与视觉-语言模型的掩码语言建模目标完全兼容,可直接复用预训练优化器和训练管线 [12][14] - 推理阶段通过迭代去噪和自适应重掩码策略(默认12轮迭代),实现动作序列的并行解码和错误修正,比自回归模型减少4.7倍函数评估次数 [15][16][18] 性能表现 - 在LIBERO任务的Franka Panda机械臂上实现96.3%平均成功率,其中Object套件98.6%、Spatial套件97.2%、Goal套件97.4%、Long套件92.0%,较自回归模型OpenVLA(76.5%)提升19.8%,较连续扩散模型π₀(94.2%)提升2.1% [8][21][22] - 在Google机器人的SimplerEnv任务中视觉匹配率达71.2%,显著优于π₀(58.8%)和π₀+FAST(61.9%),整体成功率达64.1% [23][24] - 在WidowX机器人的真实-模拟迁移场景中整体成功率达49.3%,较连续扩散基准π₀(27.8%)提升21.5%,较π₀+FAST(39.5%)提升9.8% [25][26] 创新点与实验验证 - 首次将离散扩散技术引入视觉-语言-动作模型的动作解码,支持并行解码和渐进式优化,无需外挂扩散模块 [6][7][12] - 自适应解码策略(基于最大置信度排序)在LIBERO-Goal套件上实现97.4%成功率,较并行解码策略(95.6%)提升1.8% [27][29] - 衰减温度调度(Temp=1-t)通过早期高温度探索和后期低温度确定性优化,成功率97.4%,较硬采样(96.2%)提升1.2% [28][29] 研究团队与背景 - 由香港大学、上海人工智能实验室、上海交通大学和华为云计算技术有限公司联合提出,论文发表于arXiv平台 [3][4]
RLinf开源!首个面向具身智能“渲训推一体化”的大规模强化学习框架
具身智能之心· 2025-09-01 12:02
文章核心观点 - 清华大学、北京中关村学院和无问芯穹联合推出面向具身智能的大规模强化学习框架RLinf 该框架通过创新的混合式执行模式、统一编程接口和自适应通信机制 在具身智能训练场景下实现系统提速超120% 模型性能提升40%-60% 同时支持数学推理大模型训练并取得SOTA性能[5][7][9][24][29] 技术架构设计 - 系统采用六层级抽象架构 包括用户层、任务层、执行层、调度层、通信层和硬件层 支持混合式执行模式[7] - 提出宏工作流到微执行流映射机制(M2Flow) 实现过程式编程灵活性与声明式编程优化能力的结合[14] - 支持三种执行模式:共享式(组件常驻或交替使用GPU)、分离式(组件流水线执行)、混合式(自定义组合放置形式)[15][17] 性能表现 - 在具身智能训练中相比分离式执行模式系统提速超120%[7][24][27] - OpenVLA模型在Maniskill3任务中成功率从SFT后的30%-50%提升至80%-90% 涨幅40%-50%[24][28] - OpenVLA-OFT在LIBERO测试平台平均成功率97.3% 相比SFT模型提升62.4%[24][26] - 1.5B数学推理模型在AIME24/AIME25/GPQA-diamond数据集分别达48.44%/35.63%/38.46% 平均40.84%[29][30] - 7B数学推理模型在相同数据集达68.33%/52.19%/48.18% 平均56.23% 均实现SOTA[29][31] 系统优化特性 - 集成两套后端:Megatron+SGLang/vLLM支持已收敛模型架构 FSDP+HuggingFace支持未收敛模型架构[21] - 自适应通信库包含四项优化:自适应CUDAIPC/NCCL通信、负载均衡传输队列、多通道并发通信、快速通信重配置[19][22][25] - 自动化调度模块支持秒级在线扩缩容 70B模型1秒完成5D并行动态扩缩[23] - 支持LoRA训练、断点续训、多可视化工具集成 正在集成SFT模块提供一站式服务[18] 应用范围 - 专门支持Vision-Language-Action Models(VLAs)+RL训练 集成OpenVLA、OpenVLA-OFT、Pi 0等主流具身大模型[24] - 支持百余类具身智能任务 涵盖CPU-based和GPU-based仿真器[24] - 率先实现Pi 0的大规模强化学习微调 相关算法将于9月底发布[24] - 框架设计具通用性 可快速支持其他非具身智能应用场景[29]
最新综述!多模态融合与VLM在具身机器人领域中的方法盘点
具身智能之心· 2025-09-01 12:02
多模态融合与视觉语言模型综述 - 文章系统综述了多模态融合和视觉语言模型在机器人视觉领域的应用,涵盖语义场景理解、3D目标检测、SLAM、具身导航和操作控制等任务,并比较传统方法与新兴大模型方法的优劣 [3][4][11][57] 语义场景理解 - 多模态融合通过整合RGB图像、深度信息、LiDAR点云和语言数据,显著提升复杂环境下物体识别、语义分割和关系建模的准确性与鲁棒性 [9] - 主流融合策略分为早期融合(输入层直接拼接)、中期融合(特征层交互如注意力机制)和后期融合(决策层整合),现代方法趋向统一架构实现隐式协作 [10][12] - 实现路径包括编码器-解码器架构(如DeepLabv3+)、基于注意力的Transformer(如MRFTrans)和图神经网络方法(如MISSIONGNN) [12] 3D目标检测 - 多模态融合结合相机(丰富纹理)和LiDAR(精准几何),解决单一传感器在遮挡、极端天气或低反射物体下的性能缺陷 [16][18][19] - 融合设计核心涉及何时融合(早期/中期/后期)、融合内容(特征图、点云、BEV视图)及融合方法(从非注意力型到基于注意力的跨模态交互) [17] - 技术演进从早期MV3D、AVOD到TransFusion(Transformer建模跨模态依赖)和BEVFusion,并扩展雷达-相机融合(如CenterFusion)和4D雷达提升动态感知 [20][21][22] 具身导航 - 分为目标导向导航(依赖视觉语义与空间先验)、指令跟随导航(结合自然语言理解)和基于对话的导航(主动交互与动态调整),体现从感知到交互的演进 [24][26][27][28] - 代表性系统如InstructNav(零样本规划)和NaVid(视频驱动泛化),强调多模态融合在复杂环境中的适应能力 [27][33] 视觉定位与SLAM - 多模态融合(如DeepVO、D3VO)和自监督学习解决光照变化、遮挡及动态场景中的定位问题,神经隐式表示(如NeRF)压缩场景几何与语义信息 [29][30] - SLAM从传统LiDAR-SLAM(几何精准)和V-SLAM(语义丰富)向多模态融合(如V-LOAM、LIC-Fusion)和神经化转型(如UVIO用Transformer建模时序) [34][35] - 未来方向包括轻量化、自监督与感知决策一体化,提升在动态环境中的语义理解与规划能力 [35][38] 视觉-语言-动作模型(VLA) - VLA模型整合视觉感知、语言理解和动作生成,实现从"感知"到"执行"的闭环,代表方法包括RT-2(预训练对齐)、RoboMamba(动作动态建模)和3D-VLA(三维点云融合) [36][37][39] - 高效化趋势明显:OpenVLA通过LoRA降低训练成本,DeeR-VLA采用动态退出机制减少计算开销,VoxPoser支持语言驱动的实时策略调整 [39][40] - 多模态融合使机器人在操作任务中实现感知更强、理解更深和执行更准的三重跃迁 [47] 视觉-触觉融合 - 视觉提供全局物体信息(位置、形态),触觉补充局部反馈(接触力、滑动),提升抓取精度与稳定性,如FusionNet-A融合特征用于抓取规划 [41][42][48] - 触觉在抓取执行阶段实时调整力度和姿态,避免滑动或掉落,并通过时空注意力(如Li等人方法)或自监督学习(如MimicTouch)优化稳定性预测 [44][45][48] 视觉语言模型演进 - 预训练阶段通过对比学习(如CLIP)或自监督方法对齐多模态表示,实现零样本迁移和泛化能力 [50] - 跨模态对齐方法包括对比学习(拉近相关样本)、自监督学习(掩码预测)和跨模态生成(如DALL·E),解决模态间语义粒度差异 [51][55] - VLM从Flamingo、PaLM-E发展到Gemini、Llama-3.2,支持多模态(图像、文本、音频)和结构优化(MoE、稀疏注意力),增强指令理解与推理能力 [53][54] 挑战与未来方向 - 关键挑战包括跨模态对齐的语义偏差、算力有限平台的轻量化部署需求,以及真实环境中的传感器异质性和延迟问题 [58] - 未来重点方向包括结构化空间建模与记忆机制、可解释性与伦理适应性提升,以及发展具备长期学习能力的认知型VLM架构 [58]
时代2025 AI百人榜出炉:梁文锋、王兴兴等入选,华人影响力爆棚
具身智能之心· 2025-09-01 12:02
AI领域最具影响力人物 - 《时代》周刊发布2025年度AI领域最具影响力100人名单 华人面孔显著增加 包括华为任正非、DeepSeek梁文锋、宇树科技王兴兴等[2][5] 领导者(Leaders) - 华为创始人任正非推动公司长期高强度AI投资 打造自主技术体系 包括昇腾AI芯片、昇思深度学习框架和盘古大模型[8] - DeepSeek CEO梁文锋坚持自研路线 2025年1月发布R1开放权重模型 以少量计算能力达到全球最佳水平[11] - NVIDIA联合创始人黄仁勋领导公司转型为AI计算领导者 CUDA平台和GPU成为深度学习核心引擎[14] - 台积电董事长魏哲家凭借7纳米/5纳米/3纳米制程技术优势 为NVIDIA/AMD/苹果代工AI处理器[17] - Meta超级智能实验室联合负责人汪滔创立Scale AI 提供数据标注/评估/RLHF全套解决方案 2024年公司创收超10亿美元[19] 开拓者(Innovators) - 宇树科技CEO王兴兴推动具身智能发展 开发高性价比四足机器人和通用人形机器人H1平台[22] - 小马智行CEO彭军推动自动驾驶商业化 2025年在中国一线城市实现大规模全无人Robotaxi运营[25] - Surge AI创始人Edwin Chen创办数据标注公司 客户包括Google/Anthropic/OpenAI 公司估值超250亿美元[28] 塑造者(Shapers) - 斯坦福教授李飞飞创建ImageNet项目 催生计算机视觉领域深度学习革命[31] - 推动"以人为本AI"理念 致力于将AI技术用于解决医疗等全球性问题[32] 思想者(Thinkers) - 清华大学教授薛澜担任新一代人工智能治理专业委员会主任 参与制定AI伦理规范和发展战略[35] - 深度参与AI法规框架制定 推动建立全球负责任的人工智能生态系统[36] - 华人作家Karen Hao出版《Empire of AI: Dreams and Nightmares in Sam Altman's OpenAI》揭露OpenAI内幕[39] 其他AI领域重要人物 - OpenAI CEO Sam Altman领导发布GPT系列和ChatGPT 推动生成式AI技术普及[43] - Meta CEO Mark Zuckerberg确立AI优先战略 开源Llama系列大模型影响全球开放AI生态[47] - Anthropic CEO Dario Amodei曾领导GPT-2/GPT-3项目 创立公司旨在构建更安全可靠的AI[49] - 亚马逊CEO Andy Jassy创立AWS 当前通过Amazon Bedrock/Amazon Q推动生成式AI创新[51] - 谷歌首席科学家Jeffrey Dean团队提出Transformer架构 合并Google Brain和Google DeepMind为Gemini[58] - OpenAI首席科学家Jakub Pachocki领导GPT-4训练 2019年团队开发的AI击败《Dota 2》世界冠军[60]
吴恩达最新来信:是时候关注并行智能体了
具身智能之心· 2025-09-01 12:02
并行智能体发展趋势 - 并行智能体正成为提升AI能力的新方向 通过多个智能体协作处理不同任务 实现速度快效率高 [2][3] - 传统AI能力提升依赖scaling law 即通过更多数据和算力获得性能提升 但需要长时间输出结果 [6][7][8] - 并行agent在提升性能的同时 让用户无需长时间等待结果 且大语言模型token成本下降使该方法可行 [9][10] 并行智能体应用场景 - 多个agent并行抓取分析网页 快速生成深度研究报告 [11] - 多个agent协同处理代码库不同部分 加快编程任务完成速度 [11] - 多个agent在后台并行工作 由监督agent向用户提供反馈 实现并行异步控制 [11] 技术挑战与研究进展 - 协调多个智能体并行执行任务存在挑战 类似于人类将复杂任务拆分给多个工程师完成的难度 [13][14] - Code Monkeys论文通过并行生成多个轨迹 生成多样化候选解决方案 提高编程问题解决效率 [15][17] - Together Mixture Of Agents架构同时利用多个大语言模型提升性能 并可调整分层架构进一步优化 [18][19] 行业前景展望 - 最优利用并行agent仍需大量研究与工程探索 预计能高效并行工作的agent数量将非常庞大 [22] - 并行计算在AI领域具有历史成功先例 2009年GPU大规模应用曾显著提升卷积神经网络训练效率 [23][24]
开课倒计时!3个月搞透具身大脑+小脑算法
具身智能之心· 2025-08-31 10:33
具身智能行业概述 - 具身智能强调智能体与物理环境的交互与适应 聚焦智能体在物理世界中感知环境、理解任务、执行动作并反馈学习的能力 [1] - 大脑和小脑构成具身机器人核心模块 大脑负责思考感知(语义理解和任务规划) 小脑负责执行(高精度运动执行) [1] 产业发展动态 - 近2年具身明星团队陆续创业 成立星海图、银河通用、逐际动力等公司 推动具身本体和大小脑技术进步 [3] - 华为2024年底启动"全球具身智能产业创新中心" 与乐聚机器人、大族机器人等企业合作建设具身智能大脑和小脑关键技术 [5] - 京东自2025年5月以来连续投资智元机器人、千寻智能、逐际动力等公司 强化物流科技与家庭服务场景效率 [5] - 腾讯、蚂蚁集团、小米等科技巨头通过战略投资与合作布局 加快构建具身智能产业生态 [5] - 国外Tesla/Figure AI推进工业与物流机器人应用 美国投资机构支持Wayve、Apptronik等公司落地自动驾驶与仓储机器人 [5] - 国内企业以产业链投资与综合平台驱动具身智能落地 国外科技巨头侧重基础模型、模拟环境与类人机器人原型研发 [5] 技术演进路径 - 第一阶段聚焦抓取位姿检测 通过点云或图像预测末端执行器姿态实现静态物体抓取 但缺乏任务上下文和动作序列建模 [6] - 第二阶段进入行为克隆阶段 借助专家演示数据学习从感知到控制的端到端映射 具备模仿人类完成复杂任务能力 [6] - 第三阶段2023年兴起Diffusion Policy方法 通过扩散模型生成整个动作轨迹 提升策略稳定性与泛化能力 [6] - 2024年进入Vision-Language-Action模型阶段 融合视觉感知、语言理解与动作生成模块 支持零样本或小样本快速泛化 [7] - 第四阶段2025年探索VLA模型与强化学习、世界模型、触觉感知等模块融合 提升长时任务试错能力与环境动态预测能力 [8] - 技术演进从低层感知到高层理解 逐步迈向通用任务和开放环境的智能体时代 [9] 应用场景与市场需求 - 技术发展推动人形机器人、机械臂、四足机器人等产品落地 服务于工业、家居、餐饮、医疗康复等领域 [9] - 相关产品和融资络绎不绝 岗位呈现爆发式增长 导致许多人员转入具身智能领域 [9] - 从研究走向落地对工程能力提出更高要求 需要完成策略训练与仿真测试、模型训练部署、强化学习应用等系统能力 [12] 人才需求特征 - 需熟悉具身智能基本功能和任务 具备Python和Pytorch基础 拥有3090ti及以上算力显卡 [18] - 目标人群包括具身算法从业人员、VLA/RL研究方向学生、计算机视觉或自动驾驶转行人员等 [18] - 需掌握仿真、DP、VLA、VLA+RL模型原理应用 以及触觉信息VLA方案和世界模型应用 [18]
最新综述!多模态融合与VLM在具身机器人领域中的方法盘点
具身智能之心· 2025-08-31 10:33
多模态融合与视觉语言模型综述 - 文章系统综述了多模态融合和视觉语言模型在机器人视觉中的应用 涵盖语义场景理解 三维目标检测 SLAM 具身导航和操作控制等任务[4] - 比较了传统方法与新兴大模型方法的优缺点 并分析相关数据集与基准测试[4] - 提出未来发展方向包括跨模态自监督学习 轻量化融合架构 Transformer驱动的统一范式以及真实环境中的高效部署策略[4] 多模态融合在机器人视觉任务中的应用 - 多模态融合整合RGB图像 深度信息 LiDAR点云 语言 触觉与位置信息 提升机器人感知全面性[3] - 主流融合策略分为早期融合 中期融合和后期融合三类[12] - 现代多模态模型在统一架构中完成特征提取 模态交互和任务预测 减少阶段设计麻烦并使信息交换更顺畅[10] 语义场景理解 - 涉及物体识别 语义分割和关系建模 仅靠RGB图像在复杂环境下易受光照变化 物体遮挡和多目标重叠影响[9] - 多模态融合通过引入深度 LiDAR 语言等额外信息大幅提升场景理解的准确性和鲁棒性[9] - 主流实现路径包括编码器-解码器架构 基于注意力的Transformer和图神经网络方法[12] 三维目标检测 - 自动驾驶系统中关键感知任务 准确识别并定位行人 车辆和障碍物[15] - 单一传感器各有短板 相机能捕捉纹理和颜色但缺乏深度信息 LiDAR提供精准空间几何结构但看不懂语义和纹理[15] - 多模态融合设计需解决何时融合 融合什么和如何融合三个核心问题[16] 方法演进 - 从早期依赖直接拼接或统计操作 演化出点级 体素级 区域级融合策略 到Transformer引入实现智能交互[19] - 代表性方法包括PointPainting和TransFusion 前者对图像做语义分割并涂到点云上 后者用Transformer解码器建模跨模态依赖[21] - 探索雷达-相机和雷达-LiDAR融合 雷达优势在于直接测量速度且在恶劣天气中稳定[20] 具身导航 - 核心思想是让机器人像真的身处环境中一样去探索 感知和行动 强调自主决策与动态适应能力[23] - 分为目标导向导航 指令跟随导航和基于对话的导航三类 从感知驱动到语言理解再到交互感知演进[23] - 基于对话的导航中机器人能够主动发问 实时交互 提升任务灵活性 特别适合长时序 多步骤复杂任务[27] 视觉定位与SLAM - 视觉定位在光照变化 遮挡严重 环境动态频繁场景中是大难题 多模态融合思路推进问题解决[28] - 自监督学习通过光度一致性和几何一致性物理约束进行学习 不依赖人工标注[28] - SLAM从单打独斗变成抱团取暖 通过融合LiDAR 相机 IMU GPS 雷达等多源信息提升系统稳定性[33] 视觉-语言-动作模型 - 结合视觉感知 语言理解和动作规划 让机器人基于多源信息主动决策和执行[35] - 核心思路是从视觉模态获取世界状态 通过语言模态理解任务语义 将多模态信息融合到统一表示再映射成动作序列[36] - 代表性方法包括RT-2 RoboMamba 3D-VLA OpenVLA DeeR-VLA和VoxPoser[38] 视觉与触觉融合 - 视觉负责提供全局信息如物体位置 形态和姿态 触觉提供局部反馈如接触力 摩擦和滑动[40] - 在抓取生成阶段 视觉帮助确定空间姿态和位置 触觉补充表面特性和受力信息用于选择最优抓取点[41] - 抓取稳定性预测中 视觉-触觉融合展现巨大优势 让机器人从只会抓升级为会思考怎么抓[44] 视觉语言模型演进 - 预训练几乎是整个系统起点 通过大规模图像-文本数据联合训练学会视觉与语言间深层语义关联[49] - 跨模态对齐是关键 需在不同模态间建立精确对应关系 主流方法分为对比学习 自监督学习和跨模态生成三类[51] - 自2022年以来VLM发展迅速 从Flamingo PaLM-E到MiniGPT-4 LLaVA 再到Gemini Llama-3.2 多模态范围扩展到图像 文本 音频甚至跨语言[52] 核心创新点 - 大规模图文预训练先喂饱模型海量图文对 为跨模态推理打下坚实基础[53] - 指令微调用自然语言告诉模型需求 学会举一反三甚至猜未说出口需求[53] - 结构优化采用MoE专家混合和稀疏注意力等黑科技 在提升性能同时节省算力[53] 结论与未来方向 - 跨模态对齐策略决定机器人感知能力上限 但不同模态间语义粒度差异和特征对不上号仍是硬伤[57] - 在算力有限机器人平台部署大规模VLM需靠轻量化与多阶段自适应机制精打细算[57] - 未来研究可重点关注引入结构化空间建模和记忆机制 提升系统可解释性与伦理适应性 发展具备长期学习能力的认知型VLM架构[57]
具身智能之心人形机器人交流群成立啦~
具身智能之心· 2025-08-31 10:33
具身智能之心人形机器人交流群来啦!欢迎从事人形运控、VLA模型、数采、硬件等相关方向的同学 加入。 添加小助理微信AIDriver005,备注昵称+人形+加群。注意:有备注才能通过哦~ ...
直播分享!“具身数据困境”:仿真技术、真实数据与世界模型的碰撞交融
具身智能之心· 2025-08-30 00:03
行业技术路径 - 具身智能发展主要围绕仿真技术、真实数据与世界模型三大路径展开 这些路径既存在竞争又相互融合 [3] - 物理仿真技术已进入深水区 真实数据到仿真的转换技术(real2sim)正推动仿真路线发展 [11] - 业界构建了超大规模训练场Agibot World 包含百万真机与千万仿真数据集 系统研究具imbing智能的Scaling Law方法论 [4] 核心技术突破 - 端到端自动驾驶方案UniAD获IEEE CVPR 2023最佳论文奖 其技术方案被特斯拉2023年推出的FSD采用 [4] - 开发全球首个开源模块化真实感自动驾驶仿真器MARS 并获得CICAI 2023最佳论文Runner-up奖项 [5] - 神经渲染方法SlimmeRF实现渲染阶段精度与速度的可调节 获得3DV 2024最佳论文奖 [5] - Open X-Embodiment项目获得ICRA 2024最佳论文奖 CAST项目获得SIGGRAPH 2025最佳论文奖 [7] 数据争议与解决方案 - 针对真实数据不可替代性的争论 行业探讨这是策略选择问题还是AI演进必经之路 [3][11] - Genie3世界模型的问世引发行业关注 世界引擎可能成为解决具身智能数据问题的终极方案 [11] - 俯视图感知方法BEVFormer成为业界广泛使用的纯视觉检测基准 入选2022年百强影响力AI论文榜单 [4] 学术与产业贡献 - 研究团队在CVPR/ICCV/ECCV/SIGGRAPH/NeurIPS/ICLR等顶级会议发表50余篇论文 多次获得最佳论文奖项 [5][7] - 学术成果获得多项荣誉包括2024年中国吴文俊人工智能青年科技奖 香港博士政府奖学金等 [4][7] - 构建的具身智能训练场包含百万级真机与千万级仿真数据集 为行业提供大规模训练基础设施 [4]
ReconVLA:基于重建式VLA模型的机器人感知方法
具身智能之心· 2025-08-30 00:03
视觉-语言-动作模型技术突破 - 提出重建式视觉-语言-动作模型ReconVLA 通过目标区域重建任务实现隐式视觉定位 显著提升机器人操控精度[3][8][14] - 核心创新在于引入扩散变换器进行高保真区域重建 迫使模型将注意力像聚光灯般聚焦关键物体[3][11][16] - 在CALVIN长时序任务中首任务成功率接近95% 平均完成子任务数达3.95个[9][20][21] 技术实现架构 - 采用双分支协同架构:视觉重建分支负责目标区域编码与重建 动作预测分支生成离散动作token驱动机械臂[13] - 利用冻结视觉tokenizer将凝视区域编码为潜在token 保留细粒度视觉信息[3][13] - 通过联合优化重建损失与动作预测损失 增强视觉表示可迁移性与鲁棒性[13][19] 数据集与预训练 - 构建包含10万条轨迹、200万样本的大规模预训练数据集 聚合BridgeData V2、LIBERO、CALVIN等多个开源数据集[8][19] - 采用自动化标注流程 利用微调Grounding DINO自动分割指令对应的凝视区域图像[8][19] - 消融实验表明大规模预训练使模型在CALVIN任务成功率从88.8%提升至95.6%[19][20] 性能表现对比 - 在ABCD→D长时程任务中以70.5%成功率完成全部5个子任务 平均完成4.23个子任务 显著优于主流方案[21][22] - 对比显式定位与思维链定位范式 隐式定位在保持端到端训练优势的同时避免坐标回归困难[10][11] - 真实机器人测试中 对未见物体任务保持40%以上成功率 远超OpenVLA和PD-VLA的近乎零成功率[25][26] 实际应用验证 - 在六自由度机械臂平台上执行叠放碗具、水果放置、翻转杯子、清理餐桌等任务 成功率高达90%[25] - 视觉系统采用双深度相机配置:底座视角RealSense D515和末端执行器视角ORBBEC Dabai[25] - 注意力热图显示模型能动态调整凝视区域 在干扰物多的场景中精准锁定目标物体[4][9]